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内 容 简 介 


本 书 主 要 介绍 经 典 的 机 器 学 习 算 法 的 原理 及 改进 ,以 及 MATLAB 的 实例 实现 。 本 书 内 容 分 为 三 
部 分 。 第 一 部 分 (第 1 章 ) 是 机 器 学 习 概 念 篇 ,介绍 机 器 学 习 的 相关 概念 ,并且 对 机 器 学 习 的 各 类 算法 进 
行 分 类 ,以 便 读 者 对 机 器 学 习 的 知识 框架 有 一 个 整体 的 了 解 , 从 而 在 后 续 的 学 习 中 更 容易 接受 机 器 学 习 
涉及 的 各 类 算法 。 第 二 部 分 (第 2 章 . 第 3 章 ) 是 MATLAB 机 器 学 习 基 础 篇 ,介绍 MATLAB 的 基本 使 
用 方法 ,以 及 MATLAB 集成 的 机 器 学 习 工 具 箱 。MATLAB 易 上 手 的 特点 让 使 用 者 将 更 多 的 精力 专注 
于 算法 开发 与 使 用 ,而 不 是 搭建 算法 实现 开发 平台 。 第 三 部 分 (第 4 章 一 第 19 章 ) 是 机 器 学 习 算 法 与 
MATLAB 实践 篇 ,对 监督 学 习 、 无 / 非 监督 学 习 ,强化 学 习 三 大 类 常用 算法 进行 逐个 讲解 ,包括 机 器 学 习 
算法 原理 .算法 优 缺 点 .算法 的 实例 解释 以 及 MATLAB 的 实践 应 用 。 

本 书 适合 以 下 读者 : 对 人 工 智能 .机 器 学 习 感 兴趣 的 读者 ; 希望 用 机 器 学 习 完 成 设计 的 计算 机 或 电 
子 信息 专业 学 生 ; 准备 开设 机 器 学 习 ,深度 学 习 实 践 课 的 授课 老师 ; 学 习 过 C 语言 , 且 和 希望 进一步 提升 
编程 水 平 的 开发 者 ; MARIAA VE DL ni CLOS ES BED Lag TIT ABS TASTE DITE 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ,无 标签 者 不 得 销售 。 
版 权 所 有 ,侵权 必 究 。 侵 权 举 报 电话 : 010-6278287 — 13701121933 


图 书 在 版 编目 (CIP) 数 据 
机 器 学 习 人 门 到 实战 : MATLAB 实践 应 用 / 冷 雨 泉 等 著 . 一 北京 : 清华 大 学 出 版 社 ,2019 
(大 数据 与 人 工 智能 技术 丛书 ) 
ISBN 978-7-302-49514-7 
I. 中 机 … I. D0- M. Q Matlab 软件 一 应 用 一 机 兹 学 习 IV. OTP181 
中 国 版 本 图 书馆 CIP 数据 核 字 (2018) 第 029354 号 

策划 编辑 : 魏 江 江 

责任 编辑 : 王 冰 飞 

封面 设计 : X 键 

责任 校对 : HRZ 

责任 印 制 : 杨 id 


出 版 发 行 : 清华 大 学 出 版 社 


网 HE: http://www. tup. com. cn, http://www. wqbook. com 
地 HE: 北京 清华 大 学 学 研 大 厦 AH 邮 编 : 100084 
社 总 机 : 010-62770175 邮 购 : 010-62786544 


投稿 与 读者 服务 : 010-62776969, c-service(Z tup. tsinghua. edu. cn 
质量 反馈 : 010-62772015, zhiliang(9 tup. tsinghua. edu. cn 
课件 下 载 http://www. tup. com. cn,010-62795954 
: 三 河 市 龙 大 印 沪 有 限 公 司 
: 全 国 新 华 书店 
: 185mm X 260mm ED 张 :17.5 插 页 : 4 字 8r. 370 T 
: 2019 4£ 3 H 9B 1 f 印 次 : 2019 年 3 月 第 1 次 印刷 
. 17-2000 
: 59. 00 JL 


Bp» gCHIN S 
y 
-E pE uk D 


Y 
Hn 
2 
QU 


: 075373-01 


«| Figure 1 — [] X 
XU) SSD  EmE(V) $A(0 IR =E ZLDW) 帮助 (H) - 
cnédéó/h|í&«cosesz-alunaaa 


40 


35[ 





图 2.4 利用 Plot 函数 绘图 
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二 维 绘 图 1 
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2.7 综合 绘图 实例 4.1 下 近邻 算法 实例 图 
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4.5 KNN 算法 电影 类 型 分 类 
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图 9.4 线性 回归 模型 的 实例 结 采 





图 9.5 广义 线性 模型 拟 合 指数 曲线 的 实例 图 13.1 EM 算法 的 思想 
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13.3 EM 算法 用 于 GMM 的 示例 图 16.2 音 尾 花 数 据 集 
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图 16.3 不 同 的 聚 类 方式 (黑色 虚线 椭圆 代表 一 个 类 ) 





Sigma is diagonal, SharedCovariance = true Sigma is diagonal, SharedCovariance = false 





Sigma is full, SharedCovariance = true Sigma ls full, SharedCovariance = false 





图 16.4 GMM Æ Fisher Iris 数据 集 上 的 聚 类 效果 


散 扣 图 和 拟 合 的 高 斯 模型 轮廓 
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图 16.6 拟 合 高 斯 混合 模型 实例 图 16.9 利用 GMM RÆ 


隶属 类 别 1 的 后 验 概 率 
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图 16.10 类 别 1 的 隶属 度 







GMM 聚 类 的 隶属 度 曲线 
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图 16.12 隶属 度 值 和 软 聚 类 
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第 一 主轴 
图 16.14. GMM 中 使 用 不 同上 的 效果 
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(a) 真实 的 聚 类 结 : (b) DBSCAN 算 法 (MinPts=6) 


图 17.4 DBSCAN(CMinPts 一 6) 预测 与 真实 结果 对 比 
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(a) 真实 的 聚 类 结果 (b) DBSCAN 算 法 (MinPts=10) 


图 17.5 DBSCAN(MinPts= 二 10) 预 测 与 真实 结果 对 比 
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(a) 趴 实 的 聚 类 结果 (b) DBSCAN 算 法 (MinPts=2) 


图 17.6 DBSCAN(MinPts 二 2) 预 测 与 真实 结果 对 比 
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图 18. 6 
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当前 状态 值 函数 iter=0 
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当前 状态 值 函 数 iter=2 
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当前 状态 值 函数 iter=3 
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图 18.7 最 优 昌 略图 的 解 
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图 19.3 SARSA 算法 得 到 的 策略 
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会 更 加 深入 地 应 用 到 生产 ,生活 的 方方面面 。 


作为 人 工 乔 能 的 核心 技术 ,机 副 学 习 已 经 三 学 应 用 于 各 行 各 业 中 ,如 图 像 识别 .语言 识别 、 
文本 分 类 ,智能 推 存 、 网 络 安 全 等 。 示 来 ,伴随 者 信息 技术 的 进一步 发 展 ,机 右 学 习 拉 术 将 


目前 ,机 天 等 习 技 术 正 处 于 参 阳 时 期 ,对 于 从 事 机 天 学 习 的 研究 人 员 来 说 ,应 感到 来 
等 和 骄 做 ,因为 能 够 在 对 的 时 间 从 事 最 热门 的 技术 研究 。 对 于 有 志 于 或 有 兴趣 从 事 机 瑚 


学 习 的 人 研究 人 员 而 言 , 首 先 应 知道 , 现 阶 段 对 这 方面 人 才 的 需求 还 十 大 于 供给 ,同时 ,这 一 
拉 术 会 伴随 看 信息 化 技术 一 卫 发 展 下 去 。 其 次 ,在 学 习 之 初 , 不 要 被 大 量 的 数学 公式 吓 得 
退 避 三 舍 , 而 应 明日 ,在 大 多 数 情 况 下 ,尤其 是 应 用 层面 ,机 天 学 习 仅 是 一 种 实现 技术 要 求 


的 工具 ,需要 了 解 各 类 算法 的 优势 .劣势 及 有 效 使 用 的 方法 ,无 须 详 尽 地 了 解 各 种 机 需 学 
习 算 法 的 细 梳 末节 。 正 如 计算 机 内 部 运行 机 制 极 其 复杂 ,大 多 数 人 每 天 都 会 使 用 ,但 却 无 
须 了 解 CPU 和 内 存在 每 一 时 刻 的 具体 运行 过 程 。 


本 书 是 作者 在 多 年 机 器 学 习 及 工作 经 验 的 基础 上 ,对 大 量 的 网 络 资源 .论文 和 相关 书 
籍 进行 总 结 、 整 理 .分 析 后 编写 的 。 全 书 共 分 为 三 部 分 ,分 别 为 机 器 学 习 概 念 篇 、 
MATLAB 机 器 学 习 基础 篇 .机 器 学 习 算 法 与 MATLAB 实践 篇 。 

本 书 各 章 内容 简 介 如 下 。 


elm rngbasEJ'PEB ABE RISE ask) LIE SSWEAR. DL 28x -J 
算法 实现 的 基本 流程 ,以 及 机 天 和 学习 中 数据 预 处 理 的 基本 方法 。 


tj ,流程 控制 语句 编写 \ 绘 图 及 文件 的 于 入 与 村 出 。 


使 用 方法 和 流程 。 


第 2 草 主 要 介绍 MATLAB 软件 的 基本 操作 和 使 用 方法 ,包括 矩阵 运算 、m 文件 编 
= 


第 3 章 主 要 介绍 MATLAB HA 2€ 2J. T. R. 48 "P A] 4p 28 2€ 2] $8 EH REF 
(Classification Learner App) If fi FH 7r iX: .38 xz (8 x 55 Fé 4e Jp 28048 E R3 3 [9] . EL 
音 介 绍 


介绍 


分 类 回归 算法 中 的 & 近邻 算法 (KNN) 的 算法 原理 ,算法 实现 步骤 、 算 法 
地 点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 


:机 器 学 习 入 门 到 实战 一 MATLAB 实 践 应 用 O a 

第 5 章 介 绍 分 类 回归 算法 中 的 决策 树 (Decision Tree) 的 算法 原理 、 算 法 实现 步骤 、 算 
法 特点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 6 章 介 绍 分 类 回归 算法 中 的 支持 向 量 机 (SVM) 的 算法 原理 .算法 实现 步 又、 算法 
特点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 7 草 介 绍 分 类 回归 算法 中 的 朴 系 由 叶 斯 (Naive Bayes, NB) 的 算法 原理 ,算法 实现 
步 又、 算法 特点 、 算 法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 8 章 介 绍 分 类 回归 算法 中 的 线性 回归 (Line Regression) 的 算法 原理 、 算 法 实现 步 
又 .多 元 线性 回归 原理 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 9 章 介 绍 分 类 回归 算法 中 的 逻辑 回归 (Logistic Regression) 的 算法 原理 、 算 法 实现 
步 又、 算法 特点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 10 章 介 绍 分 类 回归 算法 中 的 神经 网 络 (Artificial Neural Networks. ANNO I $1 3X 
原理 ,算法 实现 步骤 ,算法 特点 、 算 法 拓展 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 

第 11 章 介 绍 分 类 回归 算法 中 的 AdaBoost 算法 的 算法 原理 、 算 法 实现 步 又、 算法 特 
点 ,算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 12 童 介 绍 聚 类 算法 中 的 上 均值 算法 (k-means) 的 算法 原理 ,算法 实现 步骤 、 算 法 特 
点 ,算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 13 章 介 绍 聚 类 算法 中 的 期 望 最 大 化 算法 (EM) 的 算法 原理 、 算 法 实现 步骤 、 算 法 
寺 点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 14 章 介 绍 聚 类 算法 中 的 有 中心 点 算法 (k-medoids) 的 算法 原理 ,算法 实现 步骤 、 算 
法 特点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 15 章 介绍 聚 类 算法 中 的 关联 规则 挖掘 的 Apriori 算法 的 算法 原理 .算法 实现 步 
WE .算法 特点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 16 章 介绍 聚 类 算法 中 的 高 斯 混合 模型 (GMM) 的 算法 原理 .算法 实现 步 又、 算法 
特点 .算法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 17 章 介绍 聚 类 算法 中 的 DBSCAN 算法 的 算法 原理 、 算 法 实现 步骤 .算法 特点 、 算 
法 改进 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 18 草 介 绍 强化 学 习 算 法 中 的 策略 迭代 和 值 和 迭代 的 算法 原理 、 算 法 实现 步骤 ,以 及 
通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

第 19 章 介 绍 强化 学 习 算 法 中 的 SARSA 算法 和 Q 学习 算 法 的 算法 原理 、 算 法 实现 步 
又 ,以 及 通过 MATLAB 进行 实例 的 算法 编写 与 详解 。 

本 书 的 出 版 得 到 了 清华 大 学 出 版 社 图 书 出 版 基金 的 资助 和 出 版 社工 作 人 员 的 大 力 文 
持 ,作者 在 此 表示 衷心 的 感谢 。 此 外 ,学 术 界 .产业 界 同仁 们 的 不 断 探 索 , 才 推 动机 需 学 习 
技术 走 到 今天 ,本 书 的 完成 得 力 于 此 ,编者 在 此 一 并 表示 感谢 。 本 书 由 冷 雨 果 、 张 会 文 、. 张 
伟 著 ,其 他 参与 编写 的 作者 还 有 付 明 亮 、 韩 小 宁 、 秦 晓 成 、 张 会 彬 ,排名 不 分 先后 。 


本 书 适 合 以 下 读者 :对 人 工 智 能 、 机 需 学 习 感 兴趣 的 读者 ;和 希望 用 机 需 学 习 完 成 设计 
的 计算 机 或 电子 信息 专业 学 生 ; 准 备 开设 机 屁 学 习 ,\ 诬 度 学 习 实 践 课 的 授课 老师 ;学 习 过 
C 语言 ,有 旦 希望 进一步 提升 编程 水 平 的 开发 者 ; 刚 从 事 机 兹 学 习 、 语 首 、 机 带 视 守 、 彤 能 机 
si A EACH TEE T Re 

-方面 ,机 带 尝 习 内 容 极为 庞大 和 复杂 ,存在 大 量 的 交叉 算法 , 且 依 据 应 用 领域 的 不 
[ri] ,不 同 的 算法 也 会 有 不 同 的 表现 ; 另 一 方面 ,机 需 学 习 领 域 发 展 极其 迅速 ,不 断 取 得 新 的 
人 研究 成 果 。 因 此 ,作者 只 能 尽力 将 现 有 机 带 学 习 的 框架 关系 及 主要 算法 原理 及 其 实现 展 
现 给 读者 ,以 起 到 抛砖引玉 的 作用 ,给 予 机 虽 学 习 的 初学 者 一 定 的 指导 。 读 者 在 后 期 的 机 
做 学 习 中 ,需要 阅读 大 量 的 文献 ,并 在 实践 中 进行 摸索 。 

由 于 作者 学 识 有 限 , 踊 漏 和 不 当 之 处 在 所 难免 ,和 敬 请 庶 者 和 同行 们 给 予 批 评 指正 
(ML matlab(2163. com) 。 谈 者 如 有 兴趣 ,可 加 入 机 六 学 习 互 动 QQ FE 446360728 ,进行 

交流 ,共同 进步 。 
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第 一 部 分 











对 于 机 器 学 习 初 学 者 ,首先 要 对 机 器 学 习 有 一 定 的 概 从 性 认 
识 , 了解 什么 是 机 器 学 习 、 机 器 学 习 的 用 泛 、 能够 解决 什么 问题 及 
妇 何 解决 问题 。 在 本 部 分 的 学 习 中 ,将 通过 实例 让 读者 了 解 机 器 
学 习 的 相关 术语 ,使 读者 对 机 器 学 习 有 一 个 具体 化 的 认识 。 在 介 
络 了 基本 坟 语 的 前 提 下 ,进一步 介绍 众 和 甸 机 器 学 习 和 算法 是 如 何 分 
类 的 ,使 读者 对 机 器 学 习 的 众 甸 算法 形成 一 定 的 框架 性 认识 。 最 
后 ,将 介绍 如 何 选 择机 器 学 习 软 件 ,、 算 法 、 开 发 机 器 学 习 应 用 程序 
和 步骤 及 基本 的 数据 预 处 理 流 程 。 
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第 四 次 工业 革命 是 以 互联 网 产业 化 .工业 智能 化 .工业 一 体 化 为 代表 ,以 人 工 智 
能 .清洁 能 源 、 无 人 控制 技术 .量子 信息 技术 .虚拟 现实 及 生物 技术 为 主 的 全 新 技术 音 
命 。 不 得 不 说 ,第 四 次 工业 革命 主要 是 信息 化 与 数据 化 的 时 代 , 将 信息 与 数据 进行 高 
效 的 利用 的 程度 ,将 决定 第 四 次 工业 革命 横向 发 展 的 尺度 。 然 而 ,机 需 学 习 技 术 恰 恰 
是 让 研究 者 从 数据 集中 受到 局 发 ,利用 计算 机 来 彰显 数据 背后 的 真实 含义 ,从 而 推动 
产业 的 发 展 。 目 前 ,众多 公司 已 用 机 器 学 习 软 件 改善 商业 决策 、 提 高 生产 率 、 检 测 疾 
病 ,预测 天 气 等 ,并 且 伴 随 着 数据 处 理 技术 的 进一步 发 展 ,机 兹 学 习 技术 会 有 更 宽广 与 
ÜR ut HY M HH o 

本 和 曹 将 针对 以 下 内 容 进 行 讲解 。 

(OD 机 冀 学 习 概 述 。 

(2) 机 天 学 习 基 本 术语 。 

(3) 机 器 学 习 任 务 及 算法 分 类 。 

(4) 如 何 学 习 和 运用 机 需 学 习 。 

(5) 数据 预 处 理 。 


和 9 1.1 机 器 学 习 概述 


1.1.1 机 规 学 习 的 概念 


学 习 是 人 类 具有 的 一 种 重要 智能 行为 ,但 究竟 什么 是 学 习 , 长 期 以 来 却 众说 纷 绒 , 从 
TEASE .逻辑 学 和 心理 学 的 角度 禾 有 不 同 的 解释 。Langley(1996) 定 义 的 机 环 学 习 是 “机 





T 


合 学 习 是 一 1] 人 工 入 能 的 科学 ,该 领域 的 主要 人 研究 对 象 是 人 工 缠 能 ,特别 是 如 何在 经 验 学 
习 中 改善 具体 算法 的 性 能 。”(Machine learning is a science of the artificial. The field's 
main objects of study are artifacts, specifically algorithms that improve their performance 
with experience. )' Tom Mitchell 的 机 需 学 习 (1997) 对 信息 论 中 的 一 些 概念 有 详细 的 解 
释 , 其 中 定义 机 器 学 习 时 提 到 ,“ 机 器 学 习 是 对 能 通过 经 验 自动 改进 的 计算 机 算法 的 研 
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2i. (Machine learning is the study of computer algorithms that improve automatically 
through experience. )" Alpaydin(2004) 同 时 提出 自己 对 机 器 学 习 的 定义 “机 器 学 习 是 
用 数据 或 以 往 的 经 验 来 优化 计算 机 程序 的 性 能 标准 。”(Machine learning is programming 
computers to optimize a performance criterion using example data or past experience. )'?! 

为 便于 进行 讨论 和 估计 学 科 的 进展 ,有 必要 对 机 需 学 习 给 出 定义 ,即使 这 种 定义 是 不 
完全 的 和 不 元 分 的 。 顾 名 思 义 ,机 可 学 习 是 人 研究 如 何 使 用 机 冀 来 模拟 人 类 学 习 活 动 的 一 
门 学 科 。 于 是 可 以 给 出 稍为 严格 的 定义 : Blase 2J2& — I ] UF oz PL as dX IUBE AU VANUS T€ 
能 ,并 识别 现 有 知识 的 学 问 。 这 里 所 说 的 “机 疾 ”, 指 的 就 是 计算 机 、 电 子 计算 机 、 中 子 计算 
机 、 光 子 计 算 机 或 神经 计算 机 等 |。 

一 个 典型 机 如 学 习 系 统 的 结构 模型 如 图 T. 1 
所 示 。 其 中 ,系统 (S) 是 猎 究 对 象 ,X 58 AT 
列 ,Y 为 输出 序列 ,Y 为 预测 输出 序列 。 系 统 (S) 
在 给 定 一 个 输入 z 的 情况 下 ,得 到 一 定 的 输出 y， 
MLM 是 所 求 的 机 器 学 习 机 ,其 输出 为 y 。 机 器 
学 习 的 目的 是 根据 给 定 的 训练 样本 求 取 系统 输 图 1.1 典型 机 器 学 习 系统 的 结构 模型 
入 .输出 之 间 的 依赖 关系 的 佑 计 , 使 它 能 够 对 未 
知 的 输出 做 出 尽 可 能 准确 的 预测 。 







系统 (S) 


Piin c Y" 


1.1.2. WF 2] yz Je s 
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第 一 阶段 是 在 20 世纪 50—60 年 代 , 属 于 热烈 时 期 。 

第 二 阶段 是 在 20 世纪 60—70 年 代 , 称 为 机 器 学 习 的 冷静 时 期 。 

第 三 阶段 是 在 20 世纪 70 一 80 年 代 , 称 为 复兴 时 期 。 

第 四 阶段 始 于 1986 年 ,综合 应 用 心理 学 .生物 学 和 神经 生理 学 ,以 及 数学 .上 月 动 化 和 
计算 机 科学 形成 机 融 学 习 理 论 基 础 ,同时 结合 各 种 学 习 方 法 的 优势 与 劣势 ,形成 多 种 形式 
的 集成 学 习 系 统 “ 5 。 

随 着 计算 机 硬件 技术 、 互 联网 技术 的 发 展 ,机 器 学 习 具 有 了 计算 硬件 支持 及 数据 支 
持 , 其 自 20 世纪 90 年 代 开 始 , 取 得 了 突飞猛进 的 发 展 。 尤 其 自 2010 年 以 来 ,Google、 
Microsoft 等 国际 IT 巨 涉 纷 纷 加快 了 对 机 颖 学 习 的 人 研究, 且 取 得 了 较 好 的 商业 应 用 价值 ， 
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国内 众多 公司 也 纷纷 效仿 ,如 阿里 巴巴 AE 奇 虎 公司 等 。 目 前 ,机 顺和 学 习 技 术 已 经 取得 
了 一 些 举世 瞩目 的 成 就 ,如 AlphaGo 击败 世界 围棋 冠军 , 特 斯 拉 Autopilot 将 血栓 病人 送 
到 医院 ,微软 人 工 乔 能 的 语言 理解 能 力 超 过 人 类 ,等 等 ,这 些 都 标志 着 机 右 学 习 技 术 正 在 
逐步 进入 成 熟 应 用 阶段 。 近 些 年 会 一 直 持续 出 现 机 器 学 习 工 程 师 短缺 现象 ,这 正 是 机 器 
学 习 普 及 的 黄金 时 代 , 对 于 软件 工程 师 而 言 应 紧 抓 时 代 需 求 ,实现 自 身 技术 价值 。 


1.1.3 HAAHR 


机 一 学 习作 为 工科 技术 ,在 学 习 之 前 读 洗 必须 了 解 机 各 学 习 这 一 技术 工具 能 够 解决 
什么 问题 ,能够 应 用 于 哪些 相关 行业 ,以 及 现 有 的 成 功 的 技术 应 用 有 哪些 等 ,从 而 激发 学 
习 热 情 。 机 一 学 习 是 一 种 通用 性 的 数据 人 处理 技术 ,其 包含 大 量 的 等 习 算 法 , 且 不 同 的 算法 
在 不 同 的 行业 及 应 用 中 能 够 表现 出 不 同 的 性 能 和 优 努 。 目 前 ,机 副 学 习 已 经 成 功 应 用 于 
以 下 领域 。 

金融 领域 : 检测 信用 卡 欺 诈 、 证 券 市 场 分 析 等 。 

互联 网 领域 : 日 然 合 言 处 理 、 语 首 识别 ,语言 翻 详 , 搜 索引 擎 广告 推广 、 邮 件 的 反 垃 

医学 领域 : 医学 诊断 等 。 

自动 化 及 机 天 人 领域 : 无 人 驾驶 ,图像 处 理 、 信 号 处 理 等 。 

生物 领域 : 人 体 基因 序列 分 析 、 和 集 日 质 结 构 预 测 .DNA He 2 UM JF 55, 

游戏 领域 : 游戏 战略 规划 等 。 

刑侦 领域 : 洪 在 犯罪 预测 等 。 

综 上 ,可 以 认为 机 带 学 习 正 在 成 为 各 行 各 业 虱 会 经 党 使 用 到 的 分 析 工 具 , 尤 其 随 看 各 
领域 数据 量 的 不 断 增加 ,各 企业 部 硕 望 通过 数据 分 析 的 手段 ,得 到 数据 中 有 价值 的 信息 ， 
从 而 指引 企业 的 发 展 和 明确 客户 需求 等 。 


1.1.4 HFA 数据 挖 据 肥 人 工 秋 能 的 关系 


依据 笔者 的 和 学习 经 验 , 对 于 机 和 兹 学 习 的 初学 者 ,不 人 免 在 阅读 各 类 书籍 和 网 络 资 料 时 ， 
常常 对 机 器 学 习 、 数 据 挖 据 及 人 工 智 能 三 者 之 间 的 关系 混淆 ,甚至 部 分 初学 者 将 三 者 认为 
是 同一 概念 。 本 小 节 将 详细 分 析 三 者 间 的 交叉 点 与 区 别 , 以 便 读 者 在 日 后 的 学 习 过 程 中 
具有 清晰 的 脉络 。 

Blase Jue UR T 1946 年 ,是 一 门 涉 及 上 自学 习 算 法 发 展 的 科学 ,这 类 算法 本 质 上 是 通 
用 的 ,可 以 应 用 到 众多 相关 问题 的 领域 。 





; 机 器 学 习 入 门 到 实战 一 一 MATLAB 实 践 应 用 


数据 挖掘 起 源 于 1980 年 ,是 一 类 实用 的 应 用 算法 (大 多 是 机 融和 学 习 算 法 ) ,利用 各 个 
领域 产 出 的 数据 来 解决 各 个 领域 相关 的 问题 。 

ATERT 1940 年 ,目的 在 于 开发 一 个 能 模拟 人 类 在 某 种 环境 下 作出 反应 和 行 
为 的 系统 或 软件 。 由 于 这 个 领域 极其 广泛 ,人 工 智能 将 其 目标 定义 为 多 个 子 目 标 ,然后 每 
个 子 目 标 就 都 发 展 成 了 一 个 独立 的 研究 分 支 。 主 要 子 目 标 列 举 如 下 : 

。 推理 (Reasoning ) ; 

。 知识 表示 (Knowledge Representation); 

。 上 有 目 动 规划 (Automated Planning and Scheduling); 
Hla 2J (Machine Learning); 

。 日 然 场 言 处 理 (Natural Language Processing); 

。 计算 机 视觉 (Computer Vision); 

。 HLA (Robotics); 

。 AHA Bes RA T BE CGeneral Intelligence or Strong AD, 

依据 上 述 总 绪 0E OMIT Las € 7J sz dx ATUS BE — o BER OS A afe 1.2 
所 示 。 机 器 学 习 是 最 为 通用 的 方法 ,包含 在 人 工 智能 和 数据 挖掘 内 ,另外 ,人 工 智能 强调 
的 内 容 较为 丰 画 ,包含 大 量 的 技术 领域 ,而 数据 挖掘 则 是 绪 合 机 天 学 习 扩 术 及 效 据 库 管理 
BUR, 


数据 挖掘 m 





图 1.2 BL 3855 -J Sn 12 8 LRL BE — 55 I8] B OE AR 


e 1.2 ”机 器 学 习 基 本 术语 


学 习 任 何尝 科 初期 ,都 需要 对 其 基本 术语 进行 擎 握 , 以 利于 对 后 续 学 习 内 容 的 理解 。 
本 节 将 参照 国内 著名 学 者 周志 华 教 授 所 著 的 《机 器 学 习 六 -一 书 中 关于 西瓜 的 实例 对 机 需 
学 习 的 各 基本 术语 进行 具体 化 ,以 利于 读者 对 概念 的 理解 。 

假设 通过 记录 的 方式 得 到 关于 西瓜 的 数据 表格 ,如 表 1. 1 所 示 。 
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数据 集 / 样 本 集 : 记录 这 组 数据 的 集合 ,也 就 是 整个 表格 的 数据 。 

实例 /样本 : 记录 一 个 事件 /对 象 的 描述 ,如 表格 中 的 任意 一 行 。 

(样本 ) 属性 /特征 : 反映 事件 或 对 象 在 有 某 方 面 的 表现 或 性 质 的 事项 ,如 表格 中 的 “ 色 
PEU SUBE 

(样本 ) 属性 值 /特征 值 : 属性 /特征 所 取 的 值 ,如 表格 中 的 “青绿 “乌黑 ”清脆 ”部 
啊 ”等 。 

属性 空间 /样本 空间 /输入 空间 : 属性 张 成 的 空间 ,如 把 “色泽 ”“ 根 带 ”“ 敲 声 ” 作 为 3 个 
坐标 轴 , 则 它们 张 成 一 个 用 于 摘 述 西瓜 的 三 维 空间 ,每 个 西瓜 都 在 这 个 空间 中 有 其 坐标 位 置 。 

特征 向 量 : 在 前 面 所 述 的 属性 空间 /样本 空间 /输入 空间 中 ,每 个 点 都 对 应 一 个 坐标 
器 量 , 这 个 癌 量 称 为 特征 癌 量 。 

维 数 : 对 于 表 中 某 一 行 数 据 , 利 用 “色泽 ”“ 根 带 ”“ 项 声 ”3 个 属性 进行 取 值 记 录 , 可 认 
为 该 样本 的 维 数 为 3。 

学 习 / 训 练 : 从 数据 模型 中 学 习 的 过 程 。 

训练 数据 : 训练 过 程 中 使 用 的 数据 。 

训练 样本 : 训练 过 程 中 的 每 一 个 样本 。 

标签 /标记 : 用 于 表示 样本 的 结果 信息 ,如 表 中 的 “成 熟 /未 成 熟 ”。 

样 例 : 指 既 包含 样本 属性 值 , 又 包含 标签 的 样本 。 注 意 与 样本 的 区 别 , 样 本 包括 训练 
样本 和 测试 样本 ,样本 不 一 定 具 有 标签 。 

标记 空间 /输出 空间 : 所 有 标记 结果 的 集合 。 

预测 : 根据 已 有 的 众多 样 例 , 判 断 某 一 样本 的 输出 结果 。 

分 类 : 当 结 果 预 测 值 为 离散 值 时 ,如 表 中 “成 熟 ””“ 未 成 熟 ”, 此 类 任务 称 为 分 类 。 尤 其 
是 只 涉及 两 个 类 草 时 ; 称 为 二 分 类 ”。 通常 ;其 中 一 个 称 为 * 正 类 ;为 一 个 称 为 "有 反 类 ”。 
涉及 多 个 类 别 时 , 称 为 “多 分 类 ”。 

回归 . 当 结 果 预 测 值 为 连续 值 时 ,如 预测 西瓜 的 成 熟 度 ,此 类 任务 称 为 回归 。 

测试 : 通过 学 习 得 到 模型 后 ,使 用 样本 进行 检测 的 过 程 。 

测试 样本 : 用 于 进行 检测 的 样本 。 

新 样本 : 没有 用 于 模型 训练 的 样本 都 可 认为 是 对 该 模型 的 新 样本 。 

泛 化 : 指 训练 的 模型 不 仅 适 用 于 训练 样本 ,同时 适用 于 新 样本 。 


RR: 将 训练 集中 的 西瓜 分 成 右 干 组 ,每 一 个 组 称 为 “ 族 ”。 例 如 ,通过 和 学习 ,其 日 动 
形成 的 许可 能 对 应 一 些 潜在 概念 的 划分 ,如 “ 浅 色 瓜 ”“ 深 色 瓜 ”等 。 这 样 的 学 习 过 程 有 助 
于 了 解数 据 内 在 的 规律 。 值 得 注意 的 古 , 在 聚 类 等 习 中 “ 浅 色 瓜 ”“ 深 色 瓜 ”这 些 概念 事先 
是 不 知道 的 ,是 尝 习 过 程 中 得 到 的 ,并 且 使 用 的 训练 样本 不 拥有 标记 信息 。 

监督 学 习 : 学 习 任 务 为 分 类 和 回归 问题 , 且 样 本 具有 标记 信息 。 

无 / 非 监 督学 习 : 学 习 任 务 为 肾 类 问题 , 且 样 本 不 具有 标记 信息 。 


151.3. 机 器 学 习 任务 及 算法 分 类 
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就 是 指 这 三 方面 任务 ,以 及 条 略 型 任务 。 对 于 用 于 解决 “分 类 “回归” 任务 的 机 兹 学 习 称 
为 “监督 学 习 ”; 对 于 用 于 解决 “ 聚 类 ”任务 的 机 各 学 习 称 为 “无 / 非 监 督学 习 ”; 对 于 用 于 
解决 策略 型 任务 的 机 器 学 习 称 为 “强化 学 习 ”"，。 
依据 上 述 机 融和 芝 习 算法 分 类 , 表 1. 2 中 列 人 誉 了 各 类 机 各 和 学 习 算 法 中 所 包含 的 典型 的 
表 1.2 机 器 学 习 算法 分 类 
分 类 典型 算法 
k 近邻 算法 (KNN) 
决策 树 (CART、C4.5、 随 机 森林 等 ) 
支持 向 量 机 (SVM) 
T3 Ul i Er (Naive Bayes) 
线性 回归 (Line Regression) 
逻辑 回归 (Logistic Regression) 
神经 网 络 (ANN) 
AdaBoost 鼻 法 (隶属 集成 学 习 ) 
k 均值 算法 (k-means) 
中心 点 算法 (k-medoids) 
高 斯 混合 模型 算法 (GMM) 
最 大 期 望 算法 (EM) 
Apriori 算法 (隶属 关联 规则 挖掘 ) 
DBSCAN 聚 类 算法 (基于 密度 聚 类 方法 ) 
策略 迭代 和 值 迭 代 
Q 学 习 算 法 和 SARSA 算法 


无 / 非 监督 学 习 


强化 学 习 


值得 注意 的 是 , 随 着 机 器 学 习 技 术 的 发 展 , 越 来 越 多 的 算法 被 研究 者 创造 ,依靠 经 典 


感 兴 趣 的 读 痢 可 深入 探索 。 为 外 ,算法 的 分 类 不 是 绝对 的 , 随 看 经 典 算 法 的 衍生 ,其 分 类 
出 现 大 量 的 交叉 。 例 如 ,神经 网 络 算法 入 生 出 的 众多 这 度 学 习 算 法 中 , 卷 积 神经 网 络 
(Convolutional Neural Network,CNN) 是 监督 学 习 , 而 稀疏 编码 算法 (Sparse Coding) 是 

在 企业 数据 应 用 的 场景 下 ,人 们 最 背 用 的 就 是 监督 学 习 模 型 和 无 / 非 监督 学 习 模 型 。 
无 监督 学 习 是 大 数据 时 代 科 学 家 们 用 来 处 理 数 据 挖 掘 的 主要 工具 。 当 然 ,用 得 最 多 的 是 用 
无 监督 学 习 算 法 训练 参数 ,然后 用 一 部 分 加 了 标签 的 数据 测试 。 这 种 方法 称 为 半 监 督学 习 。 
在 图 像 识 列 等 领域 ,由 于 存在 大 量 的 非 标 识 数 据 和 少量 的 可 标识 数据 ,目前 , 半 监 督学 习 是 
一 个 很 热 的 话题 。 而 强化 学 习 更 多 地 应 用 在 机 融 人 控制 及 其 他 需要 进行 系统 控制 的 领域 。 


G^1.4 如 何 学 习 和 运用 机 器 学 习 


前 面 已 介绍 了 机 带 学 习 的 概念 、 发 展 历史 、 基 本 术语 及 算法 分 类 等 ,相信 有 兴趣 的 读 
者 已 经 很 想 了 解 如 何尝 习 机 副 学 习 这 一 技术 ,并 希望 快速 地 实现 各 算法 的 应 用 。 为 外 ,可 
PEA b 41 DE 34 TE TÉ XE AX e BI Dam o6: 2J TETTE IL ^E BIRTH A ,不 知 如 何 下 手 ,也 不 知 何 时 
才能 掌握 这 么 多 算法 。 对 此 ,作者 依据 日 吴 的 经 验 , 提 出 两 条 : B AG. 了解 算法 基本 实现 
流程 ,并 通过 任意 软件 平台 (算法 是 核心 ,算法 实现 的 平台 只 是 实现 手段 ) 实 现 茶 一 算法 ， 
所 有 的 算法 都 是 触 类 劳 通 的 ; 其 次 ,各 有 所 专 , 不 要 渴望 掌握 所 有 的 算法 ,并 了 解 其 全 部 
的 优点 和 缺点 ,机 娠 学习 本 刁 是 一 种 通用 性 的 算法 ,研究 痢 需要 的 是 育 重 实际 的 应 用 选择 
合适 的 算法 ,并 总 结 经 验 和 不 断 探索 。 

本 证 将 介绍 如 何 选 择 算 法 的 软件 平台 ,以 及 机 副 学 习 算 法 应 用 的 实现 流程 。 本 书 第 
四 部 分 将 具体 介绍 算法 的 理论 与 应 用 ,选择 其 中 的 任意 小 市 进行 竺 习 , 即 可 实现 相应 机 般 
学 习 算 法 ,从 而 对 机 融和 学 习 算 法 的 实现 有 一 征 的 感性 认识 。 


1.4.1 软件 平台 的 选择 


“不 要 重复 造 轮 于 ”(Stop Trying to Reinvent the Wheel) ,可 能 是 每 个 程序 员 人 和 人行 被 
告知 的 第 一 条 准则 。 同 样 , 实 现 机 器 学 习 算 法 也 非常 适合 这 一 准则 。 对 于 机 各 学 习 而 言 ， 
其 涉及 大 量 的 数学 计算 ,如 和 矩阵 计算 、 微 积分 每。 人 研究 者 不 能 在 算法 实现 的 时 候 , 将 大 量 
的 精力 用 于 实现 数学 计算 方面 ,而 是 应 该 选择 合适 的 计算 平台 ,在 平台 上 实现 算法 计算 。 
目前 常用 的 计算 软件 如 下 ” 。 


1. MATLAB 


MATLAB 是 一 种 用 于 数值 计算 、 可 视 化 及 编程 的 高 级 语言 和 交互 式 环境 。 使 用 


; 机 器 学 习 入 门 到 实战 一 一 MATLAB 实 践 应 用 


MATLAB 可 以 分 析 数 据 、 开 发 算法 ,创建 模型 和 应 用 程序 ,通过 和 矩阵 运算 ,绘制 函数 和 数 
据 、 实 现 算 法 .创建 用 户 界面 .连接 其 他 编程 语言 等 方式 完成 计算 , 比 电 子 表 格 和 传统 编程 
语言 (如 C/C++ Java) 更 加 方便 快捷 。MATLAB 具有 强大 的 竖 直 计算 功能 ,可 和 完成 矩阵 
分 析 、 线 性 代数 、 多 元 函数 分 析 ,数值 微 积分 、 方 程 求解 等 常见 数值 计算 ,同时 也 能 够 进行 
符号 计算 。 另 外 ,特别 需要 注意 的 是 ,MATLAB 提供 了 大 量 的 工具 箱 和 算法 的 调用 接口 
PR E T HIP SH. 


2. GNU Octave 


GNU Octave 5 MATLAB 相似 , 它 是 由 以 John W. Eaton 为 首 的 一 些 志愿 者 共同 开 
发 的 一 个 自由 再 发 布 软 件 。 这 种 语言 与 MATLAB 兼容 ,主要 用 于 数值 计算 ,同时 它 还 提 
供 了 一 个 方便 的 命令 行 方式 ,可 以 数值 求解 线性 和 非 线 性 问题 ,以 及 做 一 些 数值 模拟 ，。 


3. Mathematica 


Mathematica 系统 是 美国 Wolfram 研究 公司 开发 的 一 个 功能 强大 的 计算 机 数学 系 
统 。 它 提供 了 范围 广泛 的 数学 计算 功能 , 文 持 在 各 个 领域 工作 的 人 们 做 科学 人 研究 的 过 程 
中 的 各 种 计算 。 这 个 系统 是 一 个 集成 化 的 计算 软件 系统 , 它 的 主要 功能 包括 演算 .数值 计 
算 和 图 形 3 个 方面 ,可 以 帮助 人 们 解决 各 领域 中 比较 复杂 的 符号 计算 和 数值 计算 的 理论 
和 实际 问题 。 


4. Maple 


1980 年 9 H . JI SER XU KE WIE TT 5 UE R NAR ERI Hi FRIES RA R SE. 
命名 为 Maple。 如 今 Maple 已 演变 成 为 优秀 的 数学 软件 , 它 具 有 上 良好 的 使 用 环境 \、 强 有 力 
的 符号 计算 能 力 、 局 精度 的 数学 计算 、 灵 活 的 图 形 化 显示 和 融 效 的 编程 功能 。 


5. SP55 


SPSS 是 1BM A EWS” im E ETE T SET or Mr RE ACE 12 3 n R E A TR AE 
优化 等 功能 。IBM 宣称 ,使 用 SPSS 可 获得 五 大 优势 : 商业 智能 ,利用 简单 的 分 析 功 能 ， 
控制 数据 爆炸 ,满足 组 织 灵 活 部 署 商业 智能 的 需求 ,提升 用 户 期 望 值 ; 绩效 管理 ,指导 管 
理 成 略 , 使 其 贿 厦 最 能 鱼 利 的 方 回 发 展 ,并 提供 及 时 准确 的 数据 场景 建 模 \ 浅 显 多 虱 的 报 
告 等 ; 预测 分 析 ,通过 发 现 细微 的 模式 关联 ,开发 和 部 署 预测 模型 ,以 优化 决策 制定 ; 分 
析 决 筑 管 理 , 一 线 业 务 员 工 可 利用 该 系统 与 每 位 客户 沟通 ,从 中 获得 丰 曙 信息 , 捉 局 业绩 ; 
风险 管理 ,在 合理 的 前 手下 ,利用 智能 的 风险 管理 程序 和 技术 ,制定 规避 风险 的 决 案 。 


R 语言 主要 用 于 统计 分 析 、 绘 图 和 操作 环境 。R 语言 是 基于 S 语言 开发 的 一 个 GNU 


第 ] 章 “机 器 学 习 基础 : 11 : 


项 目 , 语 法 来 日 Scheme, 所 以 也 可 以 当 作 SS 声言 的 一 种 实现 。 时 然 民 声言 主要 用 于 统计 
分 析 或 开发 统计 相关 的 软件 ,但 也 可 以 用 作 抢 阵 计 算 ,其 分 析 速 度 堪 比 GNU Octave 甚至 
MATLAB, R 语言 主要 是 以 命令 行 操作 ,网 上 也 有 几 种 图 形 用 户 界 面 可 供 下 载 。 


/. Python 


Python 是 一 种 面向 对 象 的 ,动态 的 程序 设计 语言 。 它 具有 非常 简洁 而 清晰 的 语法 ， 
既 可 以 用 于 快速 开发 程序 脚本 ,也 可 以 用 于 开发 大 规模 的 软件 ,特别 适合 完成 各 种 高 层 任 
Z., BE NumPy,SciPy,Matplotlib 等 众多 程序 库 的 开发 ,Python 越 来 越 适 合用 于 科学 
计算 。NumPy 是 一 个 基础 科学 的 计算 包 , 包 括 一 个 强大 的 N 维 数组 对 象 ,封装 了 
C++ 和 Fortran 代码 的 工具 、 线 性 代数 、 傅 里 叶 变 换 和 随机 数 生 成 图 数 等 复杂 功能 的 计算 
包 。SciPy 是 一 个 开源 的 数学 、 科 学 和 工程 计算 包 , 能 够 完成 最 优化 、 线 性 代数 、 积 分 、 插 
值 .特殊 限 数 快速 傅 里 叶 变 换 ,\ 信 号 处 理 、 图 像 处 理 等 计算 。Matplotlib 是 Python 比较 者 
名 的 绘图 库 ,十 分 适合 交叉 式 绘图 , 它 也 可 以 方便 地 作为 绘图 控件 嵌入 GUI 应 用 程序 中 。 

另外 ,对 于 接触 过 机 表 学 习 算 法 的 旋 者 ,可 能 了 解 Caffe, Torch , Caffe2go, Tensorflow , 
Theano 等 相关 软件 平台 ,它们 大 多 是 适用 于 某 一 种 或 茶 一 类 机 和 硕 学 习 算 法 的 平台 ,其 平 
侣 内 一 般 集 成 适合 某 一 算法 的 框 民 , 这 些 平 人 台 不 在 本 书 探讨 范围 内 。 

机 需 学 习 的 核心 是 算法 ,因此 选择 以 上 任意 数据 计算 平台 都 可 以 ,但 是 考虑 到 用 户 
量 .通用 性 、 易 学 性 及 便捷 性 ,本 书 中 将 选择 MATLAB 作为 实现 平台 。 本 书 的 定位 主要 
JJ BV ss £e YA ,利用 MATLAB 能 够 实现 初学 痢 的 快速 入 门 。 对 于 未 来 ,读者 需要 
具体 实现 机 需 学 习 算 法 应 用 时 , 则 需要 选择 与 应 用 相符 的 软件 平台 进行 开发 。 在 这 里 , 作 
4 TR E Bc TEDL SR € 7J AT. HI Python 进行 进一步 和 学习, 主要 原因 是 Python 有 众 
多 的 第 三 方 安 装 包 , 且 Python 具有 路 平台 的 特点 。 


1.4.2 机 如 学 习 应 用 实现 流程 


使 用 机 胡 学 习 进 行 应 用 程序 开发 时 , 通 第 亲人 循 以 下 步骤 。 
1. 收集 数据 


研究 者 可 以 使 用 多 种 方法 收集 样本 数据 ,如 制作 网 络 疏 虫 从 网 站 上 抽取 数据 、 从 
RSS 反馈 或 API 中 得 到 信息 ,设备 发 送 过 来 的 测试 数据 等 。 


2. 准备 输入 数据 


得 到 数据 后 ,需要 对 数据 进行 录入 ,并 对 数据 进行 一 定 的 预 处 理 , 之 后 保存 成 符合 要 
求 的 数据 格式 ,以 便 进行 数据 文件 的 使 用 。 
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3. 分 析 输 入 数据 


这 步 主 要 是 人 工分 析 前 面 得 到 的 数据 ,以 保证 前 两 步 的 有 效 。 最 简单 的 方法 是 通过 
打开 数据 文件 进行 查看 ,确定 数据 中 是 否 存在 垃圾 数据 等 。 此 外 ,还 可 以 通过 图 形 化 的 方 
式 对 数据 进行 显示 。 


4. 训练 算法 


运用 机 带 和 学 习 算 法 凋 用 第 2 步 生 成 的 数据 文件 进行 目 学 习 , 从 而 生成 演习 机 模型 。 
对 于 无 / 非 监督 和 学习, 由 于 不 存在 目标 杰 量 值 , 因 此 不 需要 训练 算法 模型 ,其 与 算法 相关 的 
内 容 在 第 5 步 中 。 


5. 测试 算法 


为 了 评 佑 算法 ,必须 测试 算法 的 工作 效果 。 对 于 监督 学 习 ,需要 使 用 第 4 步 训练 算法 
得 到 的 学习 机 , 且 需 要 已 知 用 户 评 佑 算法 的 目标 变量 值 ; 对 于 无 / 非 监 督学 习 , 可 用 其 他 
TEE TEA A 如 果 对 算法 的 输出 结 打 不 满意 , 则 可 以 回 到 第 4 步 ,进行 
进一步 的 算法 改进 和 测试 。 当 问题 与 数据 收集 准备 相关 时 , 则 需要 回 到 第 1 步 。 


6. 使 用 算法 


将 机 妖 学 习 算 法 转换 为 应 用 程序 ,执行 实际 任务 ,以 检验 算法 在 实际 工作 中 是 否 能 够 
正常 工作 。 






G^ 1.5 数据 预 处 理 


在 一 个 实际 的 机 器 学 习 系 统 中 ,一 般 数据 预 处 理 部 分 占 整个 系统 设计 中 工作 量 的 一 
半 以 上 。 用 于 机 器 学 习 算 法 的 数据 需要 具有 很 好 的 一 致 性 及 高 的 数据 质量 ,但 是 在 数据 
来 集 过 程 中 ,由 于 各 种 因素 的 影响 及 对 属性 相关 性 并 不 了 解 ,因此 采集 的 数据 不 能 直接 应 
用 。 直 接收 集 的 数据 具有 以 下 两 个 特点 。 

(1) 收集 的 数据 是 杂乱 的 ,数据 内 容 常 出 现 不 一 致 和 不 完整 问题 , 且 常 存在 错误 数据 
或 者 异常 数据 。 

(2) 收集 的 数据 由 于 数据 量 大 ,数据 的 品质 不 统一 ,需要 提取 高 品质 数据 ,以 便利 用 
高 品质 数据 得 到 高 品质 的 结果 。 

对 于 数据 的 预 处 理 过 程 , 大 致 可 分 为 五 步 : 数据 选取 数据 清理 .数据 集成 .数据 变 
换 数据 规约 。 这 些 数据 预 处 理 方 法 需要 根据 项 目 需求 和 原始 数据 特点 ,单独 使 用 或 者 综 
t ERI, 
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1.5.1 数据 初步 选取 


数据 初步 选取 是 面向 应 用 时 进行 数据 处 理 的 第 一 步 , 从 服务 器 等 设备 得 到 大 量 的 源 
数据 时 ,由 于 并 不 是 所 有 的 数据 都 对 机 器 学 习 有 意义 ,并 且 往 往 会 出 现 重 复数 据 , 此 时 需 
要 对 数据 进行 选取 ,基本 原则 如 下 。 

(1) 选择 能 够 赋予 属性 名 和 属性 值 明 确 含 义 的 属性 数据 。 

(2) 避免 选取 重复 数据 。 

(3) 合理 选择 与 学 习 内 容 关 联 性 高 的 属性 数据 。 


1.5.2 数据 清理 


数据 清理 是 数据 预 处 理 中 最 为 花费 时 间 和 精力 , 却 极 为 乏味 的 一 步 , 但 是 也 是 最 重要 
的 一 步 。 这 一 步 可 以 有 效 减 少 机 带 和 学 习 过 程 中 出 现 目 相克 居 的 现象 。 数 据 清 理 主 要 处 理 
缺失 数据 .噪声 数据 .识别 和 删除 扳 立 点 等 。 


1. 缺失 数据 处 理 


目前 最 第 用 的 方法 是 对 缺失 值 进行 填充 , 依 徘 现 有 的 数据 信息 推测 屿 失 值 ,尽量 使 十 
充 的 数值 接近 于 遗 汤 的 实际 值 ,相应 的 方法 如 回归 、 贝 叶 斯 等 。 男 外 ,也 可 以 利用 全 局 常 
量 、 属 性 平均 值 填 元 缺失 值 ,或 者 将 源 数 据 进行 属性 分 类 ,然后 用 同一 类 中 样本 属性 的 平 
均 信 项 充 等 。 在 数据 量 充 足 的 情况 下 ,可 以 忽略 缺失 值 的 样本 数据 。 


2. 噪声 数据 处 理 


噪声 是 指 测量 信 由 于 错 旋 或 偶 差 ,导致 其 严重 侦 离 期 望 值 EL FP «Rr eR. HB. 
最 广 记 的 是 利用 平 请 技术 处 理 , 其 具体 包括 分 箱 扩 术 、 回 归 方 法 、 聚 类 技术 。 通 过 计算 机 
检测 出 吕 声 点 后 ,可 将 数据 点 作为 垃圾 数据 删除 ,或 者 通过 拟 合 平滑 技术 进行 修改 。 


1.5.3 数据 集成 


数据 集成 束 古 将 多 个 数据 源 中 的 数据 合并 在 一 起 形成 数据 仓库 /数据 库 的 技术 和 过 
程 。 数 据 集成 中 需要 解决 数据 中 的 3 个 主要 问题 。 

OD 多 个 数据 集 匹 配 。 当 一 个 数据 库 的 属性 与 万 一 个 数据 库 的 属性 匹配 时 ,必须 注 
意 数 据 的 结构 ,以 便于 二 者 匹配 。 

(2) 数据 元 余 。 两 个 数据 集 有 两 个 命名 不 同 但 实际 数据 相同 的 属性 ,那么 其 中 一 个 
属性 就 是 元 余 的 。 
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(3) 数据 冲突 。 由 于 表示 、 比 例 、 编 码 等 的 不 同 , 现 实 世 界 中 的 同一 实体 ,在 不 同 数据 
源 中 的 属性 值 可 能 不 同 ,从 而 产生 数据 皮 义 。 


1.5.4 数据 变换 


1. 数据 标准 化 


数据 标准 化 ( 归 一 化 ) 处 理 是 数据 挖掘 的 一 项 基础 工作 。 不 同 评价 指标 往往 具有 不 同 
的 量 纲 和 量 纲 单位 ,这 样 的 情况 会 影 啊 数 据 分 析 的 结 末 。 为 了 消除 指标 之 间 的 量 纲 影 响 ， 
需要 进行 数据 标准 化 处 理 ,以 解决 数据 指标 之 间 的 可 比 性 。 原 始 数 据 经 过 数据 标准 化 处 
理 后 ,各 指标 处 于 同一 数量 级 ,适合 进行 综合 对 比 评价 。 以 下 是 3 种 常用 的 归 一 化 方法 。 

(1) min-max 标准 化 (Min-Max Normalization) 。 该 方法 也 称 为 离 差 标准 化 ,是 对 原 
始 数 据 的 线性 变换 ,使 结果 值 映射 到 [0,1 jj 区间。 转换 函数 如 式 (1. 1): 


x — min | 
: A E MM s EM (1.1) 
max — min 


式 中 ,max 为 样本 某 一 属性 数据 的 最 大 值 ; min 为 样本 某 一 属性 数据 的 最 小 值 。 这 种 方 
法 有 个 缺陷 ,就 是 当 有 新 数据 加 入 时 ,可 能 导致 max 和 min 变化 ,需要 重新 定义 。 

(2) Z-score 标准 化 方法 。 该 方法 将 原始 数据 的 均值 (mean) 和 标准 差 (standard 
deviation) 进行 数据 标准 化 。 经 过 处 理 的 数据 符合 标准 正 态 分 布 , 即 均值 为 0, 标准 差 为 
1, Z-score 标准 化 方法 适用 于 样本 属性 的 最 大 值 和 最 小 信 未 知 的 情况 ,或 有 超出 取信 范 
围 的 离 群 数 据 的 情况 。 转 换 图 数 如 式 (1.2): 


p* 一 二 一 (1.2) 
O 


式 中 ,yp 为 样本 茶 一 属性 数据 的 均值 ;6o 为 样本 数据 的 标准 差 。 
(3) 小 数 定 标 标准 化 。 该 方法 是 通过 移动 数据 的 小 数 点 位 置 来 进行 标准 化 ,小 数 操 
移动 多 少 位 取决 于 属性 取 值 的 最 大 值 。 其 计算 公式 如 式 (1. 3): 


条 = d E m 
Ei 10xj (1:3) 


XP sug 为 属性 值 中 绝对 值 最 大 的 数据 的 位 数 。 例 如 ,假设 最 大 值 为 1345, 则 j= 二 4。 
2. 数据 白化 处 理 


进行 完 数据 的 标准 化 后 ,日 化 通常 会 被 用 来 作为 接 下 来 的 数据 预 处 理 步 骤 。 实 践 证 
Bj ,很 多 算法 的 性 能 提高 都 要 依赖 于 数据 的 日 化 。 日 化 的 主要 目的 是 降低 输入 数据 的 元 
余 性 ,一 方面 减少 特征 之 间 的 相关 性 , 另 一 方面 使 不 同 维度 特征 方差 相近 或 相同 。 通 常情 
况 下 ,对 数据 进行 日 化 处 理 与 不 对 数据 进行 日 化 处 理 相 比 ,算法 的 收敛 性 会 有 较 大 的 
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日 化 处 理 分 为 PCA( Principal Component Analysis; 主 成 分 分 析 ) 日 化 和 ZCA 
(Zeromean Component Analysis ,去 均值 成 分 分 析 ) 月 化 。PCA 日 化 保证 数据 各 维度 的 
方差 为 1, 而 ZCA 日 化 保证 数据 各 维度 的 方差 相同 。PCA 上 日 化 可 以 用 于 降 维 ,也 可 以 去 
相关 性 ,而 ZCA 日 化 主要 用 于 去 相关 性 , 且 尽 量 使 日 化 后 的 数据 接近 原始 输入 数据 。 两 
类 方法 都 具有 各 月 适用 的 数据 场景 ,但 相对 而 言 , 在 机 带 学 习 中 PCA 日 化 方法 应 用 更 多 。 


1.5.5 数据 归 约 


数据 归 约 通常 用 维 归 约 、 数 值 归 约 方法 实现 。 维 归 约 指 通过 减少 属性 的 方式 压缩 数 
据 量 ,通过 移 除 不 相关 的 属性 ,可 以 提高 模型 效率 。 第 见 的 维 归 约 方法 有 : 通过 分 类 树 、 
随机 和 森林 判断 不 同属 性 特征 对 分 类 歼 采 的 影响 ,从 而 进行 师 选 ; 通过 小 波 变 换 \ 主 成 分 分 
析 把 原 数据 变换 或 投影 到 较 小 的 空间 ,从 而 实现 降 维 。 
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对 于 有 一 定编 程 基 础 ,但 未 系统 学 习 MATLAB 的 读者 ,甚至 
没有 编程 基础 的 读者 ,可 认真 阅读 本 部 分 内 容 , 其 中 ,详细 地 介绍 
了 在 本 书 中 将 使 用 到 的 MATLAB 的 相关 知识 。 

同时 ,本 部 分 将 介绍 MATLAB 机 器 学 习 工 具 箱 ,该 工具 箱 能 
BA TF Stt 4e 2$ 56 9) , H- i8 19. E] 72 1C J09- un (3 19 FR E RE 9S X 79 77 
便 地 使 用 机 器 学 习 进 行 数 据 分 析 。 本 书 第 3 章 将 围绕 该 工具 箱 
的 功能 使 用 过 程 进行 介绍 ,并 通过 实例 的 方式 带领 读者 了 解 该 
工具 箱 的 使 用 过 程 。 
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MATLAB 是 一 个 高 级 的 矩阵 /阵列 语言 , 它 包 含 控制 坪 句 .图 数 、 数据 结构 、 输 入 和 
输出 及 面 癌 对 象 编程 特点 。 用 户 可 以 在 命令 窗口 中 将 输入 语句 与 执行 命令 同步 ,也 可 以 
先 编 与 好 一 个 较 大 的 复杂 的 应 用 程序 (Cm 文件 ) 后 峙 一 起 运行 。 新 版 本 的 MATLAB 声言 
是 基于 最 为 流行 的 C++ 语言 基础 上 的 ,因此 语法 特征 与 C++ 语言 极为 相似 ,而 且 更 加 简 
单 ,更 加 符合 科技 人 员 对 数学 表达 式 的 书写 格式 。 使 之 更 利于 非 计算 机 专业 的 科技 人 员 
使 用 。 而 且 这 种 语言 可 移植 性 好 、 可 拓展 性 极 强 ,这 也 是 MATLAB 能 够 深入 到 科学 人 研究 
及 工程 计算 各 个 领域 的 重要 原因 -于 。 


MATLAB 语言 之 所 以 如 此 受 人 推 秒 是 因为 它 有 如 下 这 些 优 点 : 编程 简单 使 用 方便 ; 
负数 库 可 任意 扩充 ; Win dB. AAEE; 简便 的 绘图 功能 ; 丰富 的 工具 箱 。 
本 和 草 将 对 MATLAB 的 基础 知识 进行 介绍 ,使 MATLAB 初学 者 能 人 够 快速 掌握 


MATLAB IJ3EAs y FH. 348 f AXE VITE. BEA ME BE UP ced E CN Hj e LSS 2E A 3 
法 。 本 章 内 容 包括 MATLAB 界面 介绍 .矩阵 赋值 与 运算 .,m 文件 及 函数 实现 与 调用 、 基 
本 绘图 ,数据 文件 导 人 与 导出 等 。 


*^2.1 MATLAB 界面 介绍 


对 于 MATLAB 的 安 痛 ,网络 上 有 大 量 的 教程 贰 源 ,该 痢 可 根据 需求 进行 安 闻 相 应 版 
本 。 本 书 采用 MATLAB 2016a 版 本 ,安装 后 ,双击 MATLAB 图 标 , 打 开 MATLAB X 
面 ,如 图 2. 1 所 示 。 从 图 2. 1 中 可 知 , MATLAB 界面 主要 分 为 4 个 区 域 ,分 别 为 “工具 栏 
区 ”工作 路 径 区 ”工作 区 ”和 “命令 行 窗口 区 ”。 

初始 界面 的 “工具 栏 区 ”包含 三 部 分 :“ 主 页 “绘图 ”和 “应 用 程序 ”。“ 主 页 ”中 的 各 工 


of 


具 用 于 对 代码 的 各 类 操作 ;“ 绘 图 ”中 的 各 工具 则 用 于 MATLAB 绘制 图 片 时 的 各 类 操 
作 ;“ 应 用 程序 ”与 早期 MATLAB 版 本 中 的 Simulink 相似 ,提供 面 回 各 类 应 用 的 工具 箱 ， 
便于 用 户 进行 调用 和 使 用 。 





TIFA 





2.1 MATLAB M 


“工作 路 径 区 ”展示 当前 MATLAB 运行 的 文件 位 置 , 作 为 MATLAB 此 时 运行 的 默 
认 位 置 。 对 于 后 续 用 户 编 辑 的 m 文件 ,必须 将 MATLAB 工作 路 径 转 到 m 文件 的 路 径 下 
才能 运行 ,否则 MATLAB 检测 当前 路 径 下 无 需要 运行 的 m 文件 ,从 而 导致 运行 失败 ,该 
错误 是 MATLAB 初学 者 极 易 犯 的 错误 。 

“命令 行 窗口 区 ”是 指 用 户 可 二 接 进行 编程 及 命令 运行 的 区 域 , 用 户 每 
后 ,MATLAB 将 运行 一 行 。 当 用 户 需 要 完成 多 行 代码 再 进行 运行 时 , 则 需 
到 m 文件 中 ,进行 一 次 性 运行 。 

“工作 区 ”用 于 展示 用 户 在 命令 行 窗口 区 运行 命令 后 各 变量 结果 的 展示 。 


完成 一 行书 写 
要 将 代码 写 人 





72.2 矩阵 赋值 与 运算 


下 面 通过 实例 的 方式 ,介绍 MATLAB "un fap Sc BUB Pe RH is $$ AR n FU Doe od 
MATLAB 命令 行 窗口 输入 ,在 输入 时 ,有 一 个 标志 性 前 导 符 >>”, 相 应 程序 写 在 前 导 符 
之 后 , 按 Enter 键 即 可 执行 。 

【 例 2.1】 将 矩阵 [1,2;3,4] 赋 值 给 矩阵 a, 将 a 矩阵 中 的 每 个 元 素 加 1, 赋 值 到 矩阵 
b JEPE a 的 第 1 行 第 2 列 元 系 置 为 0, 将 矩阵 a 的 第 2 列 元 素 全 置 为 0, 求 矩阵 请 转 置 、 
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>>a= [1,2;3,4] % 对 a 进行 赋值 ,结尾 不 加 ";" 表 示 将 结果 输出 到 命令 Gan 
输出 结果 为 ， 
gs 
1 2 
3 4 
>>b=a+l $H a ER nh 
输出 结果 为 ; 
ne 
2 3 
4 5 
»»8a(1,2) 2 0; 名 将 矩阵 a 的 第 1 行 第 2 列 元 素 置 为 0 
>a PEE TAE 
输出 结果 为 : 
a= 
1 0 
3 4 
»»a(:,2) 250; 多 将 矩阵 a 的 第 2 列 元 素 全 置 为 0 
>> a 输出 变化 后 的 矩阵 a 


ā 
E E n. n: id i n n i un EA E E ud wd nn n jn in jd n cun P un E mud Run na i mnn n md, n d uma Jai d jm n E n ud "c RR n nd jn n E fur e Rui md Juni ed i GR nnd E E E a RN n d LN mi aL unb faa na E nd nr. wn an nm d, E m Rs mw We i EE E n un S, n i n RR n y md nd um A nt 


输出 结果 为 : 


m om m om m m m o m m Eo Gh m E GR mp b AD m GE G4 UO AO GÀ GOOD GRO URÓ GRÉ A G"D GRO UÁO GRO OR ÁO GO GRO GORGE GÁ GE AO URÁO GARA GA GR GRO GSC GAS RAO GR UD GEO GO USD GRO AO USD GRO UÁS GO UR GEO AO GO GEO RÁO GR UR GO GRO GO GARS GARA GRO G4 CU GO RR GA GS OG UO CUÁDO GÁO RO GS GAO URDU CGÁO GO UR UG GR UO G4 GR GO RO GAÁ GR GUÁOGAOURÓ GDOUAOGAO GO CR GRO ROO ORO GO OR GO GO AK GA R4 GA UR UD GR AO OD GO GRO URDU GO RAO Gs GO GA GOES GS RUSO GO RS GR 
LI 


a= 
1 0 
3 0 
>> Tb - b' % 矩阵 b 转 置 


mOmOm momo mom mom om om mom m Gm (m m mo m (m m 09 (E (m 08 (09m (9 (Om Om G- TETEE £D m omo m OE (Om -- 9 (- 0m (€ (0m OG) 0m -- (800m TETEE OED m OG (E (9E m (m m mp m (E Om Om (€ Om OE OMD 0m (9m (m (€ 04] M O-DOmO-m (Om -- (9 0m (ES(m (2 09 0m -- (2D 06 (€ MOS m (E Om 09 (m m € 2 TEET (Om m (mo Om (E (€ M (9 0-02 (9 (-20(m m6 -0M (9 m OR (0m 32/0 m6 900m. 0m momo mo momo mom momo momo momomomomomomomomnomoummmummm 


输出 结果 为 ; 


ma 


3 5 
>> Inv b= inv(b) & ABE b 


1 
本 
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输出 结果 为 : 


mam 
1 


— 2. 5000 1.5000 
2.0000 — 1. 0000 


>> Det b= det(b) & BE bf 


EE 


输出 结果 为 : 


曾 而 和 


本 


[512.2] 和 窍 阵 ae=[1,2;3,4], 和 矩阵 12=[5,6;7,8] ,实现 两 矩阵 加 , 减 、 乘 .点 乘 。 


>>a=[1,2;3,4]; % 实现 矩阵 a 赋值 


>>b= [5,6;7,8]; % 实现 矩阵 b 赋值 
»» Add a b-a*b % 两 矩阵 相 加 ,结尾 不 加 ")" 表 示 将 结果 输出 到 命令 行 窗 口 
输出 结果 为 : 
Add a b= 

6 8 

10 12 
>> Sub a b-a-b 第 Midland 结尾 不 加 "; T RE E T 行 窗口 
输出 结果 为 : 
Sub a b= 

-å =A 

-4 -4 
>> Multi a b-a*xb SERT 
输出 结果 为 : 
Multi a b= 

19 22 

43 50 


>> Dotmulti a b=a. *b s; 两 矩阵 相 乘 


本 
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Aii i ER DJ s 


m m m mm mum mm mmm mum mm EmGXEEEEGGEEEEX EIER EE EGmE mmm mom mom om mom om mo Om mom mom m E m UNO uo M UE Um Um OD E GE O5 -U-4C O5 OX GLO LU Om e m mwmmmumaummmmummummummumummom mm ommummummumumom m mm mEmuum m m ow om m Eom mom m mom mo om NOE mE Om OW OE m ONE mmumuwixs-m mmm m-mumumm mmu 


Dotmulti a b- 
5 13 
21 y 


ZI III III llc;l7cl.7cclcckll1llldbljcljclcllclcc0lrtllllllllllllltlfjlljl.dcddkcccl1l11lcdBbl1ll cl lll lgpcllc5kdckkccIllllllrcllclllllllll;lllg2lcgc1iddcdkdJkcgqc clllllllI lll lckscslcsllcllll:julcclQ.tÜ-e-c2l1ltl1l11ll1lll 


(72.3 m 文 件 及 函数 实现 与 调用 


m 文件 是 MATLAB 进行 编程 时 的 基本 文件 ,不 同 于 在 命令 行 窗 口中 一 行 一 行 代 码 
的 编写 和 运行 ,m 文件 是 指 将 代码 完全 编写 在 一 个 文件 中 ,之 后 通过 运行 ,一 次 性 完成 程 
序 的 运行 。 另 外 ,m 文件 可 实现 对 因数 的 定义 ,在 编程 中 直接 调用 该 函数 ,可 实现 相应 功 
能 。 通 过 单 击 “工具 栏 区 ”最 左 侧 的 “新 建 脚本 ”按钮 ,如 图 2. 2 所 示 , 即 可 打开 一 个 新 建 的 
m 文件 ,也 可 按 Ctrl + N 组合 键 打开 新 建 的 m 文 件 。 此 时 , 即 可 在 该 文件 下 编 与 
MATLAB 程序 ,如 图 2.3 所 示 。 在 文件 编写 完成 后 ,需要 保存 及 运行 。 


单 击 按钮 ， 新 建 m 文 件 


M^ N ATLAB R2016b 
主页 te ER APP 


Ld m n uu 4 Do mera garen ?» I 72 Q ma D (2) Q53tx 
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图 2.2 新 建 mm 文件 


Mitet rmt 





m 文 件 编辑 区 

















图 2.3 m 文 件 编 辑 页 面 
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IAMEPSACHERHCMATUBERREE 
国 数 文件 是 一 种 特殊 的 m 文件 ,其 特殊 之 处 在 于 其 第 一 行 有 严格 的 规定 ,格式 为 : 
function [a,b,… | fun(Cd.e.---2, R'iB.d.e.--- Jy eR ZI] ly AR XN a, b. 2g RAR HI gj 
出 参数 ,fun ARAA. AIN. m ETE HU Je S EISE RJ. m XCTE RS CE d D ALS RRA LZ 
实例 中 的 fun. 
【 例 2.3〗 新 建 m 文件 ,名称 为 Three _ass_add, 在 文件 中 实现 对 3 个 字符 赋值 (分 
A WEN 2.3.40 ,以 及 实现 3 个 字符 相 加 ,其 中 ,3 个 字符 相 加 通过 定义 果 数 Three add 
Three ass add. m 文件 代码 为 : 





$5 实现 对 3 个 字符 赋值 (分 别 赋值 为 2.3、4)， 以 及 实现 3 个 字符 相 加 
a-2; 
| b-23; 
Cc-4; 
Result = Three add(a,b,c) 


Three add. m 文件 代码 为 ， 





s 3 个 赋值 字符 相 加 图 数 


function result = Three add(a,b,c) 
Result-atbtc; 


ccc. I MĂ 
运行 Three ass add. m 文件 ,得 到 输出 结果 为 ， 


Result = 


于 


人 2.4 基本 流程 控制 语句 


了 解 计 算 机 编程 语言 的 读者 一 定 知 道 , 编 程 的 基本 流程 控制 语句 主要 有 4 种, 分别 是 
让 语句 for AJ, while AJA switch 语句。 下 面 分 别 用 实例 进行 讲解 如 何在 MATLAB 
中 使 用 这 四 类 语句 。 

[512.4] Æ a—Í|1.2.3:;4.5.65;7.8.9 J. "IHR AR Ik a 中 元 系 为 5 或 为 6 时 ,将 元 素 
置 为 0。 要 求 分 别 通过 for if 语句 实现 ,while\if 语句 实现 ,for、switch 语句 实现 。 

通过 for if 语句 实现 的 For if. m 文件 程序 : 


££ LI for if 语句 实现 


for i-21:3 * fT 1,2,3 
for j=1:3 $ t 1,2,3 


ifa(i,j)225|la(i,j)226 saga 
a(i,j) 7 0; 
end 
end 
end 


a % 对 a 进 行 输出 


通过 while .if 声名 实现 的 While if. m 文件 程序 : 





$538 nf while if 语句 实现 
a7 [1,2,3;4,5,6;7,8,9]; 

i=l; 各 行 数 为 1 
while (i<= 3) 

\ j=1; s 列 数 为 1 

| while (j<= 3) 

if(a(i,j)225|la(i,j)226) 名 判别 条 件 


/ 

/ 

/ 
a(i,j) =0; / 
/ 

/ 


end 
j^3* 1; 
end 
iet is 
end 
a % 对 a 进 行 输出 





通过 for.switch 语句 实现 的 For switch. m 文件 程 友 : 


— — 





多 通过 for.switch 语句 实现 
a-11;2,3;4,5,5; 7,B, 81; 








for i-1:3 1996 1,2,3 
for j=13:3 & 列 数 1,2,3 
switch (a(i,j)) | 
| case 1 | 
case 2 
| case 3 : 
40 


C " » L3 * 
日 * 
- mn 
= 
z 1 = 
r LI 
* à ú 
= = 
Ü" n 
a 
*aa95 


case 4 
case 5 

a(i,j) 7 0; 
case 6 

a(i,j) 70; 
case 7 
case 8 


case 9 


& 对 a 进行 输出 





ma 


a = 
1 2 3 
4 0 0 
7 8 9 


mOmOm mom mom om om om om omocm mom" mom Gom Om m m (Sm (m -O- 0m (Om Om 0-9 (ES 0m E OE -- O€ 0m O9 (09D OHÉ-Om (m (m 9 (€ (mo 0m -G] mo (m (E (m (E (09m 2 (m (0m (ED Om CE GE (7 - 0€ 20090 0m (8 0-m -- (2m (ES OM (8 (m (0m 0€ 09 (2 02 (€ O€-4b (m -- 9 (0m (E (m -- (ED 0M (€ (200m (O-O€mS -O(-s m £m (€ 8 (€ 04 39 0m (€(7HO-£ m (Om (- (m (9 (E -O9Í-- 90200 (9 m (m 0m -0MO (E 9.2 0m 02 (0m 0m. 0€ 0m mom momo momomomomomo momo momo mom omomom omo -umu-m-ymETmT 


(2.5 基本 绘图 方法 


强大 的 绘图 功能 是 MATLAB 的 特点 之 一 , MATLAB 提供 了 一 系列 的 绘图 函数 ,用 
户 不 需要 过 多 地 考虑 绘图 的 细节 ,只 需要 给 出 一 些 基 本 参数 就 能 得 到 所 需 图 形 , 这 类 函数 
称 为 高 层 绘图 函数 。 此 外 ,MATLAB 还 提供 了 直接 对 图 形 句 柄 进行 操作 的 低层 绘图 操 
作 。 这 类 操作 将 图 形 的 每 个 图 形 元 素 ( 如 坐标 轴 、 曲 线 ,文字 等 ) 看 作 一 个 独立 的 对 象 , 系 
统 给 每 个 对 象 分 配 一 个 句柄 ,可 以 通过 句柄 对 该 图 形 元 素 进行 操作 ,而 不 影响 其 他 部 分 。 

本 节 介 绍 绘制 二 维和 三 维 图形 的 绘图 函数 ,以 及 其 他 图 形 控制 函数 的 使 用 方法 ,在 此 
基础 上 ,再 介绍 可 以 操作 和 控制 各 种 图 形 对 象 的 低层 绘图 操作 。 


2.5.1 一 维 绘图 函数 的 基本 用 法 


ft MATLAB 中 ,二 维 绘图 最 基本 而 且 应 用 最 为 广泛 的 绘图 困 数 为 plot, 利 用 它 可 以 
在 二 维 平面 上 绘制 出 不 同 的 曲线 。 二 维 绘 图 图 数 还 包括 bar, stairs, stem, fill. 27 3] H F 
绘制 条 形 图 .阶梯 图 . 杆 图 .填充 图 ,另外 ,还 包含 基于 这 些 绘图 方式 的 一 些 二 维 绘图 方法 ， 
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如 极 坐 标 绘 图 polar 对 数 坐 标 绘图 loglog、 双 纵 坐 标 绘 图 plotyy 等 。 这 些 绘图 图 数 的 使 
用 方法 基本 痢 是 大 同 小 异 的 ,基本 格式 都 为 : 图 数 名 ( 回 量 ,绘图 参数 )。 其 中 , 回 量 数量 
不 同 函 数 使 用 时 略 有 差异 ,绘图 参数 包括 颜色 、 线 型 等 ,具体 使 用 时 ,可 通过 在 命令 行 窗口 
中 输入 “help 图 数 名 ?对 图 数 使 用 方法 进行 查询 。 

FALRA RH EZ E BRA plot 为 例 ,进行 介绍 。 

[5]2.5] [Rita &Er—[1.2.3.4,5.6].y—[8.9.10.15,35,40 ]. X} x. y 数据 绘图 ， 
t d ZI S x" x 标记、 折线 图 .平滑 曲线 图 。 

利用 plot KZT S] HJ Plot Exm. m 文件 程序 为 : 


$5 plot 函数 实例 
x= [1,2,3,4,5,6]; 
y= [8,9,10,15,35, 40]; 


plotí(x, y, '* b'); s 绘制 数据 点 " * "标记 , 且 用 蓝 色 标记 

hold on % 绘图 登 加 

plot(x, y) $ 绘制 折线 图 

xx - nin(x):.1:max(x); $ 得 到 x 问 量 中 最 大 值 与 最 小 值 , 且 以 0. 1 为 间距 形成 向 量 
yy = interpl (x, y, xx, pchip'); 多 以 三 次 函数 的 方式 进行 插值 

plot (xx, yy) ; % 绘制 插值 后 的 数据 曲线 , 由 于 间距 小 ,因此 会 有 平滑 感 
hold off; & 25: Fr BEL BH 


;A 
输出 结果 如 图 2.4 所 示 ( 详 见 文 前 彩 插 )。 


r Figure 1 


文件 (日 ”编辑 (E) ”查看 (V) AU IR SmO 窗口 (W) ”帮助 (H) 





图 2.4 利用 Plot PA Rre El 


; 机 器 学 习 入 门 到 实战 一 一 MATLAB 实 践 应 用 


2.5.2 三 维 绘图 困 数 的 基本 用 法 


MATLAB -—4fE2z K| PR 2303 fii — E Id t Al PRAE mesh , = 2f H ifii Kl PR ZG surf = 2È H 2 
图 函数 plot3, — 2E EK M PRX. sphere, = 2f E ril PR XC cylinder, = 2E 4E JE BI RRt bar3 、 三 维 
FF Fl PRSE stem3 , = DE FEE PR 2C pie3 和 三 维 填 元 图 函数 fill3 等 。 这 些 绘图 国 数 的 使 用 方 
法 基本 部 是 大 同 小 寞 的 ,基本 格式 必 为 : 图 数 名 ( 回 量 / 定 阵 ,， 绘 图 参数 ) ,其 中 ,“ 疝 量 / 算 
阵 " 数 量 略 有 差异 ， 绘 图 参数 "包括 颜色 . 线 型 等 ,具体 使 用 时 ,可 通过 在 命令 行 窗 口中 输 
A “help 图 数 名 ?对 困 数 使 用 方法 进行 查询 。 

图 数 mesh 和 surf 是 三 维 绘 图 函数 中 最 为 常用 的 隐 数 ,下 面 以 这 两 个 梁 数 为 例 进行 
实例 介绍 。 

[512.6] BRRR =r ,要求 在 rE[ 一 2,2],yE[ 一 2,2] 区 间 内 绘制 三 维 
网 格 图 和 三 维 曲 面 图 。 

利用 mesh 函数 进行 绘图 的 Mesh. Exm. m 文件 程序 为 、 


$5 mesh 三 维 曲 面 绘 图 
x--2:.2:2; ”多 生成 以 0.2 为 间隔 -2 到 2 的 向 量 数据 , -2 到 2 之 间 有 4/0.2+1=21 个 值 
y= 一 2:.2:2; ”名 生成 以 0.2 为 间隔 -2 到 2 的 向 量 数据 , -2 到 2 之 间 有 4/0.2+1=21 个 值 


[X,Y] = meshgrid(x, y) ; 多 生成 网 格 数据 ,XY 都 是 21*21 大 小 的 矩阵 
区 一 一 
mesh(X, Y, Z) 绘制 三 维 网 格 图 





输出 结果 如 图 2.5 所 示 。 


A] Figure 1 
文件 昌 S86 查看 (VW) SAO IED 桌面 ID) 窗口 (W) 者 助 (H) 
ulis hJjSSSOSe9es-u og mu 





图 2.5 利用 mesh 函数 绘制 三 维 网 格 图 
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利用 surí PR ZA UE 给 图 的 Surf Exm. m 文件 程序 为 : 


** surf 一 二 维 曲面 给 图 


x=-2:.2:2; 多 生成 以 0.2 为 间隔 -2 到 2 的 加 量 数据 , -2 到 2 之 间 有 4/0.2+1=21 个 值 
y= 一 2:.2:2; ”名 生成 以 0.2 为 间隔 -2 到 2 的 向 量 数据 , -2 到 2 之 间 有 4/0.2+1=21 个 值 


[X, Y] = neshgrid(x, y); 外 生成 网 格 数 据 ,XY 都 是 21*21 大 小 的 矩阵 
Z-X.* exp(-X."2—Y."2); 


surf (X,Y, Z) 绘制 三 维 曲面 图 


输出 结果 如 图 2.6 所 示 。 


* Figure 1 


文件 (Fl iE) 查看 (V) AM IAM =m) 窗口 (W) RH) 
néHal^sja«coSegz-ja mam 





图 2.6 利用 surf A S i] — 20e h rn FS] 
2.5.3 颜色 与 形状 参数 列表 
MATLAB 提供 了 一 些 绘图 选项 ,用 于 确定 所 绘 曲线 的 线 型 .颜色 和 数据 点 标记 人 符 
导 。 这 些 选 项 如 表 2. 1 所 示 。 


表 2.1 颜色 与 形状 参数 列表 
标记 和 号 


b Taj [x | «T5 = TEE 
e | 86 | o | ma | < j| 左 = 角 | : [9 


l | 


i 


B : » "a 
à 
: * 
" P 
3 + 
2 » 
e = 
= = 
" = 
* s 
m a. 
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ET 
B 
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2.5.4 ”图形 窗 口 分 割 与 坐标 轴 


在 实际 应 用 中 ,经 党 需要 在 一 个 图 形 窗 口中 绘制 右 干 个 独立 的 图 形 , 这 就 需要 对 图 形 
窗口 进行 分 割 。 分 割 后 的 图 形 和 窗口 由 右 干 个 绘图 区 组 成 ,每 一 个 绘图 区 可 以 建立 独立 的 
坐标 系 并 绘制 图形 。 同 一 图 形 和 窗口 下 的 不 同 图 形 称 为 子 图 。MATLAB 提供 了 subplot 
图 数 用 来 将 当前 窗口 分 割 成 奋 干 个 绘图 区 ,每 个 区 域 代 表 一 个 独立 的 子 图 ,也 是 一 个 独立 
的 坐标 系 ,可 以 通过 subplot 负数 激活 茶 一 区 ,该 区 为 活动 区 ,所 发 出 的 绘图 命令 部 是 作 
用 于 该 活动 区 域 。 调 用 格式 为 : 


Subplot(m, n, p) MM 


TA PR ROGE SAI A ADN mOX n RRK. E m £1. HEBA n TRK, DX 0 13 C 
完 编写 。 其 中 第 p 个 区 为 当前 活动 区 。 每 一 个 绘图 区 允许 以 不 同 的 坐标 系 单 独 绘制 

MATLAB 绘制 完 图 形 以 后 ,可 能 还 需要 对 图 形 进行 一 些 辅助 操作 ,以 使 图 形 意 义 更 
加 明确 ,可 谈 性 更 强 , 如 图 形 名称 、 坐 标 轴 名 称 ` 坐标 碍 范围 等 。 相 应 的 主要 指令 可 列举 
如 下 : 


title( ' 图 形 名 称 ') % 编辑 图 形 名 称 


xlabel('x 轴 说 明 ') * 编辑 x 坐标 轴 名 称 
ylabel('y 轴 说 明 ') S 编辑 y 坐标 轴 名 称 
zlabel('z Wii Hj ') $ 编辑 z 坐标 轴 名 称 

text(x, y，' 图 形 说 明 ') & 坐标 点 (x,y) 处 添加 图 形 说 明 
legend( ' 图 例 1'，' 图 例 2'，…) s 用 于 对 绘制 曲线 标记 图 例 
axis([xmin xmax ymin ymax zmin zmax]) $ x, y, z Abg 8 Abg vo. El 









【 例 2. 7] 


axis equal 
axis square 
axis auto 
axis off 
axis on 
grid on 
grid off 
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% 纵横 坐标 轴 采 用 等 长 刻度 

* 产生 正方 形 坐 标 系 (默认 为 矩形 ) 
% 使 用 默认 设置 
S 隐藏 坐标 轴 
s 显示 坐标 轴 
S 显示 坐标 网 格 
S 隐藏 坐标 网 格 


利用 前 面 所 竺 内 容 , 绎 合 性 地 进行 实例 从 例 。 
将 例 2. 5 和 例 2. 6 中 的 图 绘制 到 一 


合 绘 图 的 Com Exm. m 文件 程序 为 : 





$3; 绘图 命令 及 郴 数 综合 应 用 
subplot(2,2,1) 

$5 plot PK Zi 3c fij 

x= [1,2,3,4,5,6]; 
y7[8,9,10,15,35,40]; 
plot(x, y, ' * b'); 

hold on 
plot(x, y) 
xx -min(x):.1:max(x); 
yy = interpl(x, y, xx, 'pchip'); 
plot(xx, yy); 
title( ' 二 维 绘图 1") 

text(2, 9, "坐标 值 ') 

hold off; 

subplot(2, 2,2) 

plot(x, y, ^g'); 

hold on 

plotix, v, ':") 

plot(xx, yy); 
titlel( ' 二 维 绘图 2") 

axis([0 8 0 50]); 


legend( ' 点 标记 '，' 折 线 图 '，' 光 滑 图 ') 


grid on; 
hold off; 
subplot(2,2,3) 
$5 mesh 三 维 曲面 绘图 
一 
本 


s 在 第 一 个 区 域内 绘图 


绘制 数据 点 ”x* "标记 , 且 用 蓝 色 绘图 
s 27: Fc] ER IIT 
绘制 折线 图 


和 得 到 xz 癌 量 中 最 大 值 与 最 小 值 , 且 以 0.1 为 间距 形成 向 量 


8 以 三 次 函数 的 方式 进行 插值 

绘制 插值 后 的 数据 曲线 ,由 于 间距 小 ,因此 会 有 平滑 感 
s 图 形 名 称 

% 添加 图 形 说 明 

绘图 冯 加 关闭 

在 第 一 个 区 域内 绘图 

绘制 数据 点 ""*" 标 记 , 且 用 绿色 绘图 

s 27: FP] RH 

绘制 折线 图 

S 绘制 插值 后 的 数据 曲线 ,由 于 间距 小 ,因此 会 有 平滑 感 
% 图形 名 称 


和 用 于 对 绘制 曲线 标记 图 例 
s 25 RA Jn 2 P] 
% 在 第 三 个 区 域内 绘图 


#s 生 成 以 0.2 为 间 隅 - 2 一 2 的 向 量 数据 , - 2 一 2 有 4/0.2+1=21 个 值 
s 生 成 以 0.2 为 间隔 - 2 一 2 的 向 量 数 据 , -2 一 2 有 4/0.2+1=21 个 值 





人 


个 图 框 中 , 且 完 成 对 其 坐标 轴 的 各 类 


UPON MC. 

ji = 

» + 
: = 
. + 
: 931] : 
x a 
+ 

» * 

"s as 
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[X, Y] = meshgrid(x, y) ; 和 生成 网 格 数 据 ,XY 都 是 21* 21 大 小 的 和 矩阵 


PR, 一 

mesh(X, Y, Z) % 绘制 三 维 网 格 图 
xlabel('x') * 编辑 x 坐 标 轴 名 称 
ylabel('y') * 编辑 y 坐标 轴 名 称 
zlabel('z') % 编辑 z 坐标 轴 名 称 
subplot(2,2,4) % 在 第 四 个 区 域内 绘图 
$5 surf 三 维 曲 面 绘图 

surf(X, Y, Z) & 绘制 三 维 曲 面 图 
axis off * 隐藏 坐标 轴 


程序 运行 结果 如 图 2.7 所 示 ( 详 见 文 前 彩 插 )， 


«| Figure 1 
文件 日 ”编辑 (E) 查看 VM) A0 IRD SM0) SAW) 帮助 (H) 
OQdilis)5|*S9309uà,-u Dim mtu 





@ 26 数据 文件 导入 与 导出 


MATLAB 作为 数学 计算 平台 ,并 且 将 其 作为 机 舌 学 习 的 平台 ,必然 需要 MATLAB 
具有 强大 的 数据 导入 和 导出 能 力 。MATLAB 操作 的 数据 性 文件 包括 . mat,. txt,. xls, 
.xlsx .csv 等 。 其 中 ,. mat 文件 是 MATLAB 平 台 目 身 保 存 数 据 的 格式 ,. tt 为 文本 文 
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件 ,. xls M. xlsx 为 Office Excel 文件 ,. csv 为 一 种 特殊 格式 的 纯 文 本 文件 。 
导 人 数据 指令 为 : 








load matdata; € 导 人 .mat 文件 所 有 数据 ,文件 名 为 matdata 








a = load( 'txtdata. txt') ; s FA. txt 文件 数据 到 变量 a, 文件 名 为 txtdata 

a = xlsread( 'xlsdata. xls'); € 导 人 .xls HA ESETE a, 文件 名 为 xlsdata. xls 

a= xlsread('xlsdata.xls ','Sheetl'); $ ẸA. xls 文件 表 1 数据 到 变量 a 文件 名 为 xlsdata. xls | 
a = xlsread( 'xlsxdata. xlsx'); € FA. xls 文件 数据 到 变量 a, 文件 名 为 xlsxdata. xlsx 





a- xlsread('xlsxdata.xlsx ', 'Sheetl'); 


€ FA. xlsx 文件 表 1 Zug sU, a, 文件 名 为 xlsxdata. xlsx 


Sc ur Ma ee ee Wa eg 





a = csvread( 'csvdata. csv'); $ te A.csv 文件 数据 到 变量 a, 文件 名 为 csvdata. csv 
导出 数据 指令 为 : 
ec " 将 变量 A 和 日数 据 导 人 matdata. nat 文件 中 
save txtdata. txt - ascii A; 将 变量 A 数据 导 八 txtdata. txt 文件 中 
xlswrite('xlsdata.xls ',A); 6 将 变量 A 数据 导 人 xlsdata.xls 文件 中 
xlswrite('xlsxdata.xls ',A); 将 变量 A 数据 导入 xlsxdata. xls 文件 中 


csvwrite('csvdata.csv ',ÀA,); 将 变量 A 数据 导 八 csvdata.csv 文件 中 i 


E XR 73 d ZI I] SPA 53 S Hf RA SEHT 1S 0E F ETE EHT 1A. nTo8 3d dE ap m 
行 窗 口中 输入 "help 图 数 名 ”进行 具体 查询 。 
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在 MATLAB 近 几 年 的 版 本 中 ,推出 了 一 个 新 的 产品 功能 , 即 统计 和 机 带 学 习 工 具 箱 
(Statistics and Machine Learning Toolbox)。 这 个 工具 箱 具 有 很 多 功能 ,并 且 在 不 断 地 
完善 中 。 具 体 来 说 它 包 含 如 下 一 些 子 模块 : 探索 性 数据 分 析 ` 数 据 降 维 、 机 带 学 习 、 回 归 
和 方差 分 析 概率 分 布 拟 合 及 假设 检验 等 功能 模块 。 如 果 读 者 希望 快速 地 了 解 部 萌 一 个 
机 器 学 习 应 用 ,那么 MATLAB 提供 的 工具 箱 将 会 是 一 个 不 错 的 选择 。 基 于 这 个 原因 ,本 
章 将 着 重 介绍 MATLAB 统计 和 机 带 学 习 工 具 箱 中 的 机 器 学 习 模 块 。 


机 如 学 习 算 法 使 用 计算 方法 卫 接 从 数据 中 “学 习 ”信息 ,不 把 预定 方程 假设 为 模型 。 
在 第 1 草 中 罗列 了 各 种 不 同 的 机 各 学 习 算 法 ,归纳 起 来 ,按照 解决 问题 的 性 质 ,可 以 分 为 
分 类 (回归 )、 聚 类 和 强化 学 习 问 题 。 相 应 地 ,在 Statistics and Machine Learning Toolbox 
中 提供 用 于 执行 受 监督 和 无 / 非 监 督 机 妖 学 习 的 方法 。 分 类 算法 使 用 户 可 以 将 一 个 分 类 
应 变量 建 模 为 一 个 或 多 个 预测 元 的 图 数 。Statistics and Machine Learning Toolbox 提供 
了 涵盖 多 种 参数 化 和 非 参 数 化 分 类 算法 的 应 用 程序 和 函数 ,如 logistic 回归 、 朴 素 贝 叶 
斯 近邻 SVM 等 "… 。 人 研究 者 可 以 直接 利用 MATLAB 提供 的 这 些 算法 的 函数 接口 , 通 
过 编写 脚本 程序 来 使 用 这 些 算 法 。 更 直观 地 ,MATLAB 提供 了 一 个 GUI 形式 的 分 类 学 
习 应 用 程序 , 它 使 得 研究 者 能 够 以 窗口 菜单 的 形式 构建 一 个 机 器 学 习 应 用 。 本 章 将 着 重 
介绍 这 个 应 用 的 使 用 方法 。 

4] 2S*£ 2] «s ui Hi] fe FF (Classification Learner App) 提 供 了 一 个 机 硕 学 习 应 用 稼 用 的 
操作 ,如 交互 式 探查 数据 .选择 特征 .指定 交叉 验证 方案 .训练 模型 和 评估 结果 。 分 类 学 习 


' 4f, 
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需 应 用 程序 用 于 使 用 监督 式 机 需 学 习 来 训练 模型 对 数据 进行 分 类 ,使 用 它 可 以 执行 稼 
见 任 务 , 例 如 ,导入 数据 和 指定 交叉 验证 方案 ; 探索 数据 和 选择 特征 ; 使 用 多 种 分 类 算 
法 训练 模型 ; 比较 和 评估 模型 ; 在 计算 机 视觉 和 信号 处 理 等 应 用 场合 中 共享 训练 过 的 
模型 。 

除 此 之 外 ,分 类 学 习 天 集成 了 多 种 可 视 化 方式 来 方便 用 户 选 择 模 型 ,进行 模型 评估 和 
比较 。 训 练 好 的 模型 也 可 以 直接 导入 MATLAB 的 工作 空间 ,来 对 新 的 数据 预测 ,也 可 以 
百 接生 成 代码 ,方便 和 其 他 应 用 集成 。 

在 MATLAB 统计 和 机 融和 学 习 工 具 箱 中 当然 也 实现 了 很 多 育 类 算法 , 聚 类 算法 通过 
根据 相似 度 测 量 对 数据 分 组 来 发 现 数据 集中 的 规律 。 可 用 的 算法 包括 -均值 -中 心 点 、 
分 层 聚 类 .高 斯 混合 模型 和 隐 马 尔 可 夫 模 型 。 当 不 知道 聚 类 的 数量 时 ,可 以 使 用 聚 类 评估 
技术 根据 特定 指标 确定 数据 中 存在 的 聚 类 数量 。 只 是 聚 类 算法 还 没有 对 应 的 GUI 应 用 。 
对 于 回归 算法 ,MATLAB 2017 版 本 也 推出 了 回归 学 习 需 , 它 的 操作 流程 和 界面 与 分 类 学 
习 需 很 类 似 , 感 兴趣 的 读者 可 安装 2017 版 本 进行 实践 操作 和 学 习 。 


553.2 分 类 学 习 器 基本 操作 流程 


对 于 构建 机 融 学 习 应 用 , 通 篆 包括 五 部 分 ,分 别 是 数据 导 人 数据 的 探索 和 特征 选择 、 
训练 模型 .比较 模型 和 输出 模型 。 分 类 学 习 希 也 在 不 同 的 窗口 中 实现 了 这 些 功能 。 

自 和 完 ,为 了 局 动 分 类 学 习 冀 ,可 以 通过 和 耳 接 在 命令 行 窗 口中 输入 “classification Learner”, 
或 者 在 MATLAB 的 羔 单 栏 中 选择 “应 用 程序 ”选项 卡 下 的 分 类 学 习 如 应 用 Classification 
Learner, 如 图 3. 1 所 示 。 


ETE 


FHE MATLAB 2l dedi iu sechs ^. a, 
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图 3.1 AHRNE 2J $& 


此 时 MATLAB Tf SR Hh — 1 25 FH BJ AT 2S e$ fT n] 3. 2 所 示 。 

该 窗口 就 是 进行 分 类 操作 最 核心 的 一 个 窗口 。 但 是 可 以 看 到 大 部 分 的 菜单 和 按钮 都 
是 灰色 的 ,这 是 因为 还 没有 选择 数据 。 对 于 机 峰 学 习 应 用 来 说 ,数据 就 好 像 是 机 器 的 燃 
TL ,没有 燃料 ,机 硕 目 然 动 不 起 来 ,所 以 为 了 进行 下 一 步 工作 ,首先 需要 输入 数据 。 

导 人 数据 的 方法 分 为 两 种 方式 : 一 种 是 单 击 CLASSIFICATION LEARNER 选项 卡 
F FILE 组 中 的 New Session. 下 拉 按 钮 ,然后 选择 From Workspace, 如 图 3. 3 所 示 . Hi 
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J Classihication Learner 


CLASSIFICATION LEARNER 


Q DL UM | | 
All Quick- All Linear Complex Medium Advanced Train &catter Confusion ROC Curve 
To-Train Tree Tree Plot Matrix 


CLASSIFIER | TRAINING | PLOTS 


























Data Browser 


w History 





"* Current model 
| Model number 0 
Status: Queued 


Classifier 
No classifier type selected 


| Feature Selection 
[A features used in the model, before PCA 





Original Dataset: Observations: 0 Predictors: 0 Response Variable: Response Classes: 0 Size of Dataset: OB Validation: Ne Validation 


图 3.2 空 日 的 分 类 天 窗口 


义 是 导入 MATLAB 工作 空间 的 函数 数据 ; 男 一 种 则 是 选择 From File. "ll E] 3. 3 所 示 ， 
其 含义 是 通过 数据 文件 导 人 数据 ,如 . xls、 xlsx,. xlsm、. txt.. csv 等 格式 数据 文件 。 


Classification Learner 


28 aBa a B 
| AllQuick- All Linear Complex Medium 
To-Train 


From Workspace 





Start a new session by selecting data from 


From File 
Start a new session by importing data 
from a file and specifying a validation scheme 





图 3.3 导 人 数据 


数据 导入 后 , 则 进入 数据 处 理 窗 口 界面 ,如 图 3.4 所 示 。 图 3.4 中 的 数据 是 在 命令 行 
窗口 中 调用 fisheriris 数据 集 而 产生 的 ,其 具体 操作 是 在 MATLAB 命令 行 窗 口中 输入 : 
fishertable— readtable( 'fisheriris. csv 2 ;并 按 Enter 键 生成 的 数据 变量 ,此 时 使 用 上 述 的 
第 一 种 叶 和 人 数据 的 方法 , 即 可 生成 图 3. 4。 

该 窗口 主要 目的 是 用 来 设置 训练 数据 的 相关 属性 、 标 签 及 设置 验证 集 。 可 以 看 到 窗 
口 主要 分 成 3 个 部 分 ,其 依次 对 应 3 个 步骤 。 在 Stepl 中 主要 功能 是 选择 数据 集 , 且 设置 
数据 集 定 阵 中 的 行 作 为 一 个 变量 ,还 是 将 列 作 为 变量 ; 在 Step? 需要 回 算 法 声明 哪些 维 
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Step 2 Step 3 


Select predictors amd responas. Define validation method. 
ll 


($& Cross Validation 


Protecis against overfitting by partitioning thë data set inia 
folds and estimating accuracy on each fold 











Cross-validabon folds: 5 fokis 


CO Holdout Validation 
Recommended for large data sets 








Percent held out: 259% 
El 




















CO No Validation 
Use columns as variables No protection against overfitting. 
Use rows as variables 


Prepare data for classification Read about validation 


[| --— | m — ] 








图 3.4 数据 处 理 窗口 


度 是 输入 量 ,哪些 是 输出 量 ,对 于 分 类 问题 来 说 就 是 选择 哪 几 个 变量 作为 属性 值 , 哪 个 变 
量 作为 标签 。 这 个 声 明 可 以 通过 把 变量 导入 为 Predictor 还 是 Response 完成 ,其 中 ， 


Predictor 对 应 输入 ,Response 对 应 标签 ,此 时 ,导入 数据 的 工作 就 完成 了 。 

为 了 优化 算法 中 的 一 些 超 参 数 , 需 要 一 定 的 手段 来 评估 不 同 参数 的 表现 。 其 中 , 验 i1 
集 的 目的 是 用 来 对 算法 的 超 参 数 调 优 。 在 模型 计算 过 程 中 ,测试 集 数据 只 能 使 用 一 次 ,不 
能 用 测试 集 数 据 调 优 , 因 为 其 会 导致 算法 对 测试 集 过 拟 合 ,将 会 导致 模型 在 测试 集 上 有 较 
好 的 结果 ,但 是 实际 效果 不 能 得 到 保证 。 所 以 可 以 知道 验证 集 应 该 是 训练 集 的 一 部 分 。 
但 是 当 训 练 集 数量 较 少 (因此 验证 集 的 数量 更 少 ) 时 ,将 用 到 交叉 验证 法 。 所 谓 k-fold 
validation 就 是 把 训练 集 均 分 成 有 份 ,其 中 一 1 份 用 来 训练 ,1 份 用 来 验证 。 然 后 人 循环 取 
其 中 一 1 份 来 训练 ,其 中 1 份 来 验证 ,最 后 取 所 有 次 验证 结果 的 平均 值 作为 算法 验证 
结果 。 在 窗口 的 Step3 中 可 以 允许 用 户 设 定 这 个 & 人 人。 导入 数据 并 设置 好 交叉 验证 后 ， 
单 击 Start Session 按钮 就 弹出 如 图 3.5 所 示 的 分 类 病 窗 口 。 

可 看 出 图 3.5 所 示 的 窗口 和 图 3. 2 所 示 的 窗口 是 一 样 的 ,只 是 灰色 的 部 分 被 激活 卫 。 
这 个 激活 的 窗口 包含 了 训练 一 个 机 兹 学 习 应 用 的 核心 要 系 , 其 大 体 分 六 部 分 。 最 上 边 的 
菜单 柱 提 供 了 特征 选择 、 算 法 选择 ,模型 训练 、 可 视 化 绘图 及 输出 等 操作 。 特 征 选 择 模 块 
用 于 选择 输入 特征 , 即 选择 属性 特征 ,一 方面 可 通过 单 击 该 模块 中 的 Feature Selection f 
钮 进行 人 工 选择 ,也 可 以 利用 PCA 的 方法 目 动 选择 。 分 类 算法 模块 是 各 种 算法 的 一 个 仓 
库 。 单 击 其 下 拉 按 钮 会 出 现 如 图 3.6 所 示 下 拉 列 表 。 
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3.6 多 种 分 类 器 
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可 以 看 到 ,分 类 学 习 带 将 可 以 应 用 的 算法 分 成 了 四 大 类 ,分 别 是 决策 树 类 判别 分 析 
类 支持 向 量 机 类 ,神经 网 络 类 。 注 意 , 在 GET STARTED 中 的 All 和 AllLinear 并 不 是 
-个 算法 ,而 是 一 个 快捷 操作 , 它 能 够 快速 地 对 数据 应 用 分 类 学 习 器 中 的 所 有 模型 或 所 有 
线性 模型 。 在 做 了 特征 选择 后 ,下 一 步 则 需要 选择 一 个 合适 的 分 类 算法 。 有 了 算法 ,下 一 
步 就 是 训练 了 。 在 TRAINING 组 中 ,除了 简单 地 单 击 Train 进行 训练 外 ,还 可 以 通过 
Advanced 按钮 设置 一 些 训 练 的 参数 ,如 对 于 决 傈 树 类 算法 来 说 可 以 设置 最 大 的 叶子 结 点 
数 及 确定 决策 边界 的 准则 等 。 

当 用 户 选 择 一 个 训练 模型 后 , 它 就 会 出 现在 窗口 的 右 侧 方 杠 中。 用户 可 以 选择 多 个 
模型 ,一 次 训练 。 得 到 的 每 个 分 类 需 的 分 类 精度 会 显示 在 方 框 中 。 其 中 分 类 效果 最 好 的 
模型 会 以 方 框 突出 显示 。History 窗 格 显示 当前 模型 的 一 些 详细 信息 。 

训练 完毕 后 ,用 户 不 仅仅 得 到 一 个 分 类 的 精度 值 ,同时 用 户 还 可 以 通过 各 种 图 形 来 直 
观 地 观测 当前 模型 的 表现 。 当 然 , 图 示 化 训练 数据 对 于 数据 探索 ,发 现 数据 的 模式 也 是 大 
有 神 益 的 。 绘 图 的 选项 在 PLOTS 组 中 ,可 以 绘制 的 图 形 包 括 训 练 数据 的 散 点 图 、 
confusion matrix, ROC 曲线 等 。 关 于 这 些 不 同 图 形 的 含义 ,读者 可 参考 机 需 学 习 相 关 书 
籍 , 男 外 ,在 窗口 的 最 右边 可 以 设置 绘图 参数 。 

通过 可 视 化 窗口 界面 ,用 户 可 以 再 次 调整 模型 ,如 进一步 的 特征 提取 ,或 者 设置 更 加 
合理 的 超 参 数值 ,来 改善 模型 的 表现 。 那 么 ,一 旦 得 到 了 一 个 满意 的 模型 ,该 如 何 利 用 它 
呢 ? 分 类 学 习 帮 提供 了 两 种 模式 : 一 种 方法 是 用 户 导 出 训练 好 的 模型 到 工作 空间 中 ,这 
个 时 候 用 户 将 发 现 变 量 空间 中 多 了 一 个 结构 体 变 量 , 这 个 变量 含有 一 个 用 于 预测 的 成 员 
图 数 , 此 时 ,用 户 将 可 以 用 它 来 做 预测 。 但 是 如 果 用 户 布 望 更 改 模 型 ,或 者 把 它 集 成 到 其 
他 的 应 用 中 , 则 需要 用 到 另外 一 种 方法 ,也 是 最 通用 的 方法 , 即 以 代码 的 形式 使 用 。 
MATLAB 可 以 直接 通过 GUI 形式 的 窗口 生成 代码 。 单 击 图 3. 5 所 示 的 分 类 需 窗 口中 的 
Export Model 按钮 ,操作 如 图 3. 7 所 示 。 


Export the currently selected classifier in the 
History list to the workspace to make predictions with new data 


Export Compact Model 
Export the currently selected classifier in the History list 
without its training data to the workspace to make predictions with new data 


Generate Code 
«P Generate MATLAB code for training the currently selected 
classifier in the History list, including validation predictions 





图 3.7 导出 训练 模型 
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因为 特征 选择 和 算法 选择 对 于 一 个 机 右 学 习 应 用 全 关 重 要 ,下 面 将 会 更 详细 地 介绍 
如 何 使 用 分 类 学 习 需 APP 做 特征 选择 和 分 类 需 选 择 。 


(73.3 分 类 学 习 器 算法 优化 与 选择 


使 用 工具 箱 的 方法 并 不 是 智能 的 ,同样 需要 对 数据 进行 预 处 理 , 并 根据 经 验 和 分 析 选 
择 合适 的 数据 特征 。 夯 外 ,机 融 学 习 各 类 算法 也 具有 不 同 的 特点 ,使 用 者 应 在 不 断 的 实践 
PO TRIS Bb eR MGE ,在 特 征 的 应 用 场合 应 选择 适合 数据 月 身 的 算法 。 


3.3.1 特征 选择 


在 分 类 学 习 融 中 可 以 通过 对 原始 数据 做 散 点 图 来 分 析 是 否 需 要 或 排除 某 个 特征 。 选 
择 不 同 特征 作为 坐标 办 ,如 条 数据 某 一 类 别 数据 很 好 地 分 开 , 说 明 这 个 特征 是 有 用 的 。 如 
果 菏 个 特征 对 于 分 类 没有 任何 作用 , 则 可 以 考虑 把 它 排除 。 在 fisheriris 数据 集中 选择 X 
和 Y 分别 为 PetalLength 和 PetalWidth, 可 以 看 到 setosa 类 能 够 被 很 好 地 分 开 , 如 图 3. 8 
所 示 。 


© | Scatter Piot >| 
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3.8 ”数据 可 视 化 
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在 分 类 学 习 表 窗口 中 ,也 可 以 通过 勺 选 东 个 特征 ,观察 分 类 天 的 表现 。 
特征 后 可 以 担 融 模型 的 性 能 ,那么 应 该 排除 这 个 特征 ,尤其 是 当 收 集 该 数据 比较 昂贵 和 
难 的 时 候 。 具 体操 作为 单 击 FEATURES 组 中 的 Feature Selection 按钮 ,将 出 现 如 图 3. 9 
所 示 的 窗口 ,用户 可 以 取消 选中 特征 名 称 后 的 复 选 征 , 从 而 排除 该 特征 。 


«f Classification Learner - Scatter Plo 


CLASSIFICATION LEARNER 


E | Ti 


FAE Feature 5 ER ection 
Data — SepalLength 


Ls | 
”Tree PetalLength t Original dataset: fishertabl 
Las change. Di PetalWidth 























图 3.9 特征 选择 菜单 


利用 主 成 分 分 析 来 降低 特征 空间 的 维度 ,有 助 于 防止 过 拟 合 。PCA 能 够 消除 数据 中 
的 元 余 信 息 ,产生 一 个 新 的 变量 集 ,该 变量 集 称 为 主 成 分 。 在 工具 箱 中 使 用 PCA 包括 以 
FÆR: (1) 在 分 类 器 窗口 的 FEATURES 组 中 单 击 PCA 按钮 ; (2) 在 Advanced PCA 
Options 下 拉 列 表 框 中 选中 Enable PCA 复 选 框 , 并 设置 相应 参数 (一 般 采 用 默认 )。 至 
此 ,用户 已 完成 了 对 PCA 的 设置 ,之 后 , 当 用 户 单 击 Train 的 时 候 ,PCA 会 首先 对 数据 做 
变换 和 处 理 , 然 后 进行 模型 训练 。 

在 分 类 学 习 玫 中 也 可 以 利用 平行 坐标 图 (Parallel Coordinates Plot) 来 选择 特征 , 具 
体操 作为 单 击 分 类 学 习 兹 窗口 的 PLOTS 组 中 的 Parallel Coordinates Plot 按钮 ,生成 平 
行 坐 标 图 ,如 图 3. 10 Bron. 

在 平行 坐标 图 中 其 实 它 就 是 把 每 个 特征 列 在 一 个 一 维 的 轴 上 画 出 来 ,然后 把 每 个 记 
录 ( 一 个 样本 点 ) 依 次 连接 起 来 ,最 后 用 不 同 的 颜色 表示 不 同 的 类 别 , 错 分 的 类 别 用 虚线 表 
示 。 如 果 某 个 特征 具有 很 好 的 区 分 度 , 那 么 在 坐标 轴 上 就 会 出 现 明 显 的 聚 类 现象 。 从 
图 3. 10 可 以 看 出 PetalWidth 和 PetalLength 特征 具有 很 好 的 分 类 效果 。 


3.3.2 JETER OS RA 


各 分 类 融 算 法 有 各 目的 特点 ,依赖 于 具体 的 需求 ,如 速度 .存储 、 灵 活性、 可 解释 性 等 ， 
会 有 不 同 的 选择 。 如 果 对 于 一 个 数据 没有 特别 深刻 的 了 解 , 或 者 特别 适合 的 模型 ,最 开始 
用 户 可 以 选择 All Quick-To-Train, 这 个 选项 会 用 所 有 高 效 的 模型 对 数据 训练 ,能 够 快速 
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3.10 平行 坐标 图 


地 得 到 不 同 分 类 疾 的 表现 。 但 是 一 般 来 说 ,不 同类 型 算法 有 不 同 的 特点 ,有 大 概 的 了 解 也 
会 有 利于 用 户 选 择 分 类 需 算 法 。 表 3. 1 中 针对 不 同类 型 分 类 需 算 法 进行 了 对 比 。 
表 3.1 不 同 分 类 器 算法 特性 对 比 


Ar 2S ds Ri 2S 预测 速度 内 存 需求 量 解 释 性 


决策 树 容易 
判别 分 析 w j GEO. 大 (其 他 ) 容易 
逻辑 回归 | 快 | 和 等 | 容易 


文 持 问 量 机 | 中 等 (线性 核 函 数 )、 慢 (其 他 ) | 中 等 (线性 ) 大 ( 非 线性 ) | 容易 (线性 ) . 较 难 ( 非 线 性 ) 
中 等 | 等 | 区 难 





k 近邻 分 类 | 中 等 


集成 分 类 | 取决 于 集成 用 的 算法 取决 于 集成 用 的 算法 





9 3.4 工具 箱 分 类 学 习 实例 





本 节 将 通过 实例 来 阐述 如 何 使 用 分 类 学 习 需 APP。 所 述 的 实例 是 基于 fisheriris 数 
据 集 。 中 文 名 为 安 德 条 交尾 化 开 数 据 集 (Anderson's Iris Data Set) ,也 称 况 尾 花 开 数 据 集 
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(Iris Flower Data Set) R 2t 4$ E Fé 4b Jr XX ds fE CFisher's Iris Data Set) ,是 一 类 多 重 变 量 
分 析 的 数据 集 。 其 数据 集 包 含 了 150 MER. AE T SER P 3 P ME J8S 23 01 zs LUE 
EZER FURIA JO NE S E.A] 3.11 所 示 。4 个 特征 被 用 作 样 本 的 定量 分 析 , 它 们 分 
别 是 花 对 和 人 花 儿 的 长 度 和 宽度 。 因 此 算法 的 任务 就 是 基于 这 4 个 特征 ,利用 不 同 的 分 类 
算法 来 分 辨 它们 到 底 属于 哪个 亚 属 ” 。 





图 3.11 JLA ŠEF 


下 面 介 绍 利用 Classification Learner 实现 分 类 算法 的 步骤 。 

d) Æ MATLAB 命令 行 窗 口中 输入 命令 ,进行 fisheriris 数据 集 的 加 载 ,命令 为 
"fishertable-— readtable('fisheriris. csv '2 ;", 

(2) 对 fisheriris 数据 集 的 四 项 特征 的 数据 进行 归 一 化 处 理 , 相 应 的 方法 在 第 1 章 中 
已 经 介绍 了 较为 经 典 的 3 种 方法 ,MATLAB 中 编程 实现 如 下 。 

min-max 标准 化 (Norminmax. m X ff); 


$5; min- max 归 一 化 方法 


clear all; 

| close all; 

cic: 

| fishertable = readtable('fisheriris.csv'); % 导 人 样本 数据 ,样本 数据 为 Table 型 
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| 
: 


SepalLengthMat - fishertable. SepalLength; 


NorSepalLength = mapminmax(SepalLengthMat'); 
NorSepalLength - NorSepalLength'; 
SepalWidthMat = fishertable. SepalWidth; 


NorSepalWidth = mapminmax(SepalWidthMat'); 
NorSepalWidth - NorSepalWidth'; 
PetalLengthMat = fishertable. PetalLength; 


NorPetalLength = mapminmax(PetalLengthMat '); 
NorPetalLength = NorPetalLength'; 
PetalWidthMat = fishertable. PetalWidth; 


NorPetalWidth = mapminmax(PetalWidthMat'); 
NorPetalWidth = NorPetalWidth'; 


Norfishertable = table ( NorSepalLength, NorSepalWidth, NorPetalLength, NorPetalWidth, 


fishertable. Species); 


Z-score 标准 化 (Norzscore. m X f). 


_ ADEM ME 
%5 Z — score 归 一 化 方法 


clear all; 

close all; 

clc; 

fishertable = readtable( 'fisheriris.csv'); 
SepalLengthMat = fishertable. SepalLength; 


NorSepalLength = zscore (SepalLengthMat'); 
NorSepalLength = NorSepalLength'; 
SepalWidthMat - fishertable. SepalWidth; 


NorSepalWidth = zscore (SepalWidthMat'); 
NorSepalWidth = NorSepalWidth'; 


PetalLengthMat = fishertable. PetalLength; 


NorPetalLength = zscore (PetalLengthMat'); 


% 取 Table 型 数据 的 SepalLength 的 属 able HER Seen RENE, 
转化 为 矩阵 形式 


& 对 SepalLength 数据 进行 归 一 化 处 理 


gs 行 和 矩阵 变 为 列 矩 阵 
€ Hi Table 型 数据 的 SepalWidth 的 属性 值 , 转 
化 为 矩阵 形式 

% XJ SepalWidth 数据 进行 归 一 化 处 理 
* 行 矩 阵 变 为 列 和 矩阵 | 
UR Table RU eligo RR, 
S 转化 为 矩阵 形式 

& 对 PetalLength 数据 进行 归 一 化 处 理 | 
$ ITHE EFE 7S 91 B RF 

% W Table 型 数据 的 PetalWidth 的 属性 值 , 转 
当 化 为 矩阵 形式 

% 对 PetalWidth 数据 进行 归 一 化 处 理 \ 
$ f15B [e 2E W JI) XB [e | 


s 将 归 一 化 处 理 后 的 数据 转化 为 Table 型 数 
$ 据 , 且 淮 加 上 已 有 的 标签 





当 导 人 样本 数据 ,样本 数据 为 Table 型 

$ 取 Table 型 数据 的 SepalLength 的 属性 值 ， 
转化 为 矩阵 形式 

% 对 SepalLength 数据 进行 归 一 化 处 理 

& ÍT HE [e AE A JU B RE 

$ Bt Table 型 数据 的 SepalWidth 的 属性 值 , 转 
化 为 矩阵 形式 

& Xf SepalWidth 数据 进行 归 一 化 处 理 

% 行 矩阵 变 为 列 和 矩阵 

$ HX Table 型 数据 的 PetalLength 的 属性 值 ， 
转化 为 矩阵 形式 

$ 对 PetalLength 数据 进行 归 一 化 处 理 












NorPetalLength = NorPetalLength'; & ÎTIE REE 7g Ji] Ap PE 

PetalWidthMat = fishertable.PetalWidth; * Hi Table 型 数据 的 PetalWidth 的 属性 值 , 转 
& 化 为 矩阵 形式 

NorPetalWidth = zscore (PetalWidthMat'); 上 对 PetalWidth 数据 进行 归 一 化 处 理 

NorPetalWidth = NorPetalWidth'; & TB [EE AE 73 91] AB EF 


Norfishertable = table ( NorSepalLength, NorSepalWidth, NorPetalLength, NorPetalWidth, 


小 数 点 定 标 标准 化 (NotBit. m 文件 ): 


ss 小 数 点 定 标 归 一 化 方法 
clear all; 


close all; 





| cle; 
fishertable = readtable( 'fisheriris.csv'); s 导 人 样本 数据 ,样本 数据 为 Table 型 
SepalLengthMat = fishertable. SepalLength; € Hi Table 型 数据 的 SepalLength 的 属性 值 ， 
转化 为 矩阵 形式 
| Bit = floor(logl0(max(abs(SepalLengthMat)))) +1;% 计 算出 属性 值 中 绝对 值 最 大 的 数据 的 位 数 
if Bit~=0 
NorSepalLength = (SepalLengthMat')/(Bit* 10); 名 小 数 点 定 标 归 一 化 
NorSepalLength = NorSepalLength'; S fT kh [EE zie A si] kn [e 
else 
| NorSepalLength = SepalLengthMat; s 假如 位 数 为 0, 则 原 数 据 即 为 处 理 后 的 数据 
end i 
SepalWidthMat = fishertable. SepalWidth; % 取 Table 型 数据 的 SepalWidth 的 属性 值 , 转 
| $$ 化 为 矩阵 形式 
? Bit = floor(logi0(max(abs(SepalWidthMat)))) +1; 名 计算 出 属性 值 中 绝对 值 最 大 的 数据 的 位 数 
' if Bit~=0 
NorSepalWidth = (SepalWidthMat')/(Bit * 10); 多 小 数 点 定 标 归 一 化 
| NorSepalWidth = NorSepalWidth'; % 行 矩阵 变 为 列 和 矩阵 
) else 
? NorSepalWidth = SepalWidthMat; 假如 位 数 为 0, 则 原 数 据 即 为 处 理 后 的 数据 
? end 
PetalLengthMat = fishertable. PetalLength; % 取 Table 型 数据 的 SepalLength 的 属性 值 ， 
& 转化 为 矩阵 形式 
Bit = floor( log10 (max(abs(PetalLengthMat) ))) +1; 名 计算 出 属性 值 中 绝对 值 最 大 的 数据 的 位 数 
i if Bit~=0 


NorPetalLength = (PetalLengthMat')/(Bit* 10); 本 小 数 点 定 标 归 一 化 
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NorPetalLength = NorPetalLength'; & ITHE REE y YI AB PE 


Norfishertable = table ( NorSepalLength, NorSepalWidth, NorPetalLength, NorPetalWidth, ; 
fishertable. Species); 当 将 归 一 化 处 理 后 的 数据 转化 为 Table 型 数据 , 且 添 加 上 已 有 的 标签 


| else 
| NorPetalLength = PetalLengthMat; $$ 假如 位 数 为 0, 则 原 数 据 即 为 处 理 后 的 数据 
end 
: PetalWidthMat = fishertable.PetalWidth; € Hi Table 型 数据 的 SepalLength 的 属性 值 ， 
* 转化 为 矩阵 形式 
? Bit = floor(logl10(max(abs(PetalWidthMat)))) +1; 名 计算 出 属性 值 中 绝对 值 最 大 的 数据 的 位 数 € 
| if Bit—- 0 
NorPetalWidth- (PetalWidthMat')/(Bit* 10); ”名 小 数 点 定 标 归 一 化 
NorPetalWidth = NorPetalWidth'; t 行 矩 阵 变 为 列 矩 阵 
else 
| NorPetalWidth  PetalWidthMat; % 假如 位 数 为 0, 则 原 数 据 即 为 处 理 后 的 数据 
end 


(3) EWR 3 种 归 一 化 方法 中 ,在 本 实例 中 选择 第 一 种 方法 进行 处 理 。 然 后 ,在 
MATLAB 的 “应 用 程序 ”选项 卡 中 选择 Classification Learner, 

(4) 经 过 上 一 步骤 ,会 出 现 一 个 分 类 学 习 器 窗口 ( 见 图 3.2)。 在 分 类 学 习 妖 窗口 中 单 
ik New Session 按钮 ,此 时 将 出 现 一 个 用 于 数据 处 理 的 窗口 。 依 照 3. 3 市 介绍 的 方法 进 
行 设置 ,分 别 设置 Predictors 和 Response 及 一 些 关 于 交 又 验证 的 参数 ,本 实例 采用 默认 
设置 。 之 后 单 击 该 窗口 右 下 角 的 Start Session 按钮 。 此 时 ,分 类 学 习 器 创建 了 一 个 数据 
的 散 点 图 ,如 图 3. 12 所 示 , 与 3. 3 节 中 的 图 3.8 对 比 ,可 发 现 散 点 的 分 布 形 式 没有 发 生变 
化 ,仅仅 是 坐标 轴 的 范围 发 生 了 改变 ,这 就 是 对 数据 进行 归 一 化 后 的 数据 绪 果 。 用 户 可 以 
通过 选择 不 同 的 特征 来 绘图 ,从 而 观察 哪些 变量 能 够 很 好 地 区 分 数据 。 值 得 注意 的 是 , 通 
过 其 他 方式 进行 归 一 化 处 理 , 散 点 的 分 布 形 式 会 有 一 定 的 变化 。 本 实例 中 样本 属性 特征 
为 4, 且 各 特征 对 于 训练 都 有 作用 ,因此 不 进行 删 减 特征 处 理 及 PCA 主 成 分 分 析 。 

为 了 应 用 判别 分 析 算 法 , 单 击 CLASSIFICATION LEARNER 选项 卡 CLASSIFIER 
组 中 的 下 拉 按 和 钮 ， — Al 选项 ,然后 单 击 TRAINING 组 中 的 Train 按钮 ,此 时 ,就 可 以 
开始 训练 模型 了 ,经 过 2 一 3 分 钟 的 训练 后 ,窗口 如 图 3. 13 所 示 。 同 样 ,也 可 以 在 
CLASSIFIER 组 中 的 下 拉 列 表 中 单独 选择 决策 树 算法 .SVM logistic 回归 及 集成 方法 。 
这 里 为 了 方便 ,这 里 耳 接 选择 ATL 选项 , 它 会 对 训练 数据 应 用 所 有 的 可 用 的 分 类 融 。 

在 图 3. 13 中 的 左 侧 可 以 看 到 总 共 应 用 了 22 个 分 类 算法 ,最 好 的 分 辨 率 达 到 了 
96.7% 的 识别 率 , 相应 的 识别 算法 包括 ComplexTree、Medium Tree, Simple Tree, 
Quadratic SVM,Medium Gaussian SVM。 需 要 具体 了 解 训 练 算 法 的 相关 参数 及 训练 时 
间 ,可 单 击 相应 算法 , 则 在 其 左下 角 的 Current model 窗 格 中 显示 。 
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图 3.12 归 一 化 后 的 数据 可 视 化 
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图 3.13 各 个 分 类 器 在 fisheriris 数据 集 上 的 表现 
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另外 ,在 图 3. 13 的 散 点 显示 图 中 ,可 发 现 显示 为 “X” 的 点 ,这 些 点 表示 预测 错误 的 
点 ; 单 击 图 中 的 散 点 ,可 显示 出 其 具体 的 数据 信息 。 

为 了 观察 每 个 类 预测 的 准确 率 , 可 以 单 击 PLOTS 组 中 的 Confusion Matrix 按钮 ,如 
3.14 所 示 。 也 可 以 单 击 ROC Curve 按钮 观察 ROC 曲线 ,如 图 3. 15 所 示 。 
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| Original Dataset Norfishertable Observations: 150 Predictors: 4 Response Variable: Var5 Response Classes: 3 Size of Dataset 26 kB || Validation: 5-fold Cross Validation — | :| 





3.14 Confusion Matrix 图 


最 后 ,为 了 导出 模型 ,在 Export Model 下 拉 列 表 中 可 以 选择 不 同 的 导出 方式 ,参见 
3.2 慷 所 述 。 本 实例 中 采用 导入 工作 空间 的 方法 , 即 选 择 Export Model 下 拉 列 表 中 的 
Export Compact Model 选项 ,此 时 出 现 对 话 框 如 图 3. 16 所 示 , 要 求 输入 导出 模型 的 名 
称 。 采 用 默认 值 , 单 击 “ 确 定 ” 按 钮 。 此 时 在 MATLAB 的 工作 空间 中 便 显示 了 一 个 名 为 
trainedClassifier 的 结构 体 数据 , 即 为 训练 好 的 模型 。 

为 了 利用 训练 好 的 数据 模型 进行 新 样本 的 预测 ,需要 调用 和 使 用 它 的 成 员 轴 数 
XXX.predictFcn, 其 中 广义 为 模型 名 称 , 本 实例 中 使 用 格式 如 下 : 


yfit = trainedClassifier.predictFcn (T), 


其 中 ,TT 是 新 的 预测 数据 样本 , 它 的 形式 和 数据 类 型 必须 与 训练 中 的 数据 保持 一 致 ， 
目 不 包 含 标 签 。 为 外 ,值得 注意 的 是 ,需要 对 样本 数据 采用 同样 的 归 一 化 方法 进行 处 理 ， 
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[] 3.15 ROC 曲线 






EM Export Model 


Export the current trained classifier to a workspace variable named: 






图 3.16 命名 模型 名 称 


之 后 才能 进行 预测 。 
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EERE T BC TNR A I) H.ckENR 
2712 2228. 监督 学 习 、 无 / 非 监 督学 习 、 强 化 学 习 。 本 部 分 将 详细 

介绍 三 类 算法 PERE 

第 4 一 11 X279 E AHAA, E 12 一 17 I/F EBES 
算法 ,第 18 章 和 第 19 章 为 强化 学 习 和 算法。 每 一 章 都 对 最 基本 的 
算法 进行 了 原理 介绍 与 公式 推导 ,同时 ,利用 具体 实例 进 解 算法 
的 实现 过 程 及 步骤 ,最 后 ,基于 MATLAB 平 台 编 写 机 器 学 习 算 
法 ,或 者 调用 MATLAB 内 部 集成 的 机 器 学 习 算 法 函数 ,详细 介绍 
参数 合 义 ,并 进行 代码 分 析 。 





KERSA 





e 4.1 k 近邻 算法 原理 


kk 近邻 (RkR-Nearest Neighbor,KNN) 分 类 算法 是 一 个 理论 上 比较 成 熟 的 方法 ,也 是 最 
简单 的 机 器 学 习 算 法 之 一 。 该 方法 的 思路 是 : 如 果 一 个 样本 在 特征 空间 中 的 个 最 相似 
( 即 特征 空间 中 最 邻近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 , 则 该 样本 也 属于 这 个 
类 pj? : 


4.1.1 天 近邻 算法 实例 解释 


为 了 便于 读者 理解 ,以 下 使 用 实例 的 方法 进行 讲解 。 如 图 4. 1 所 示 ( 详 见 文 前 彩 插 )， 
有 两 类 不 同 的 样本 数据 ,分 别 用 蓝 色 的 小 正方 形 和 红色 的 小 三 角形 表示 ,而 图 正中 间 绿 色 
圆 标示 的 数据 则 是 待 分 类 的 数据 。 也 就 是 说 ,现在 并 不 知道 中 间 那 个 绿色 的 数据 是 从 属于 





人 和 常 说 , 物 以 类 聚 , 人 以 群 分 ,判别 一 个 人 是 一 个 什么 样 
品质 特征 的 人 , 篆 篆 可 以 从 他 /她 身边 的 朋友 和 人手, 所 谓 观 其 
友 ,而 识 其 人 。 要 判别 图 4. 1 中 绿色 的 圆 是 属于 哪 一 类 数 
据 , 可 以 从 它 的 邻居 下 手 。 但 一 次 性 看 多 少 个 邻居 呢 ? 从 
图 4. 1 中 还 能 看 到 : 如 果 &= 一 3, 绿色 圆 点 的 最 近 的 3 个 邻居 
是 2 个 红色 小 三 角形 和 1 个 蓝 色 小 正方 形 , 少 数 从 属于 多 
数 , 基 于 统计 的 方法 ,判定 绿色 的 这 个 待 分 类 点 属于 红色 的 
= 





图 4.1 近邻 算法 实例 图 





CMS 


如 果 &=5, 绿 色 圆 点 的 最 近 的 5 个 邻居 是 2 个 红色 三 角形 和 3 个 蓝 色 的 正方 形 , 还 
是 少数 从 属于 多 数 , 基 于 统计 的 方法 ,判定 绿色 的 这 个 待 分 类 点 属于 蓝 色 的 正方 形 一 类 。 

因此 , 当 无 法 判定 当前 待 分 类 点 是 从 属于 已 知 分 类 中 的 哪 一 类 时 ,可 以 依据 统计 学 的 
理论 看 它 所 处 的 位 置 特征 ,衡量 它 周 围 邻 居 的 权重 ,而 把 它 归 为 (或 分 配 ) 到 权重 更 大 的 那 

-类 。 这 就 是 近邻 算法 的 核心 思想 。KNN 算法 中 ,所 选择 的 邻居 都 是 已 经 正确 分 类 的 
对 象 。 该 方法 在 判定 属于 哪 一 类 的 决策 时 ,只 依据 最 邻近 的 一 个 或 者 几 个 样本 的 类 别 来 
决定 待 分 样本 所 属 的 类 别 。 

k 近邻 算法 使 用 的 模型 实际 上 对 应 于 特征 空间 的 划分 。& 值 的 选择 ,距离 度量 和 分 类 
决策 规则 是 该 算法 的 3 个 基本 要 素 。 

k 值 的 选择 会 对 算法 的 结果 产生 重大 影响 。k 值 较 小 意味 着 只 有 与 输入 实例 较 近 的 
训练 实例 才 会 对 预测 结果 起 作用 ,但 容易 发 生 过 拟 合 ; 如 果 上 有 值 较 大 ,优点 是 可 以 减少 学 
习 的 舍 计 误差 ,但 缺点 是 学 习 的 近似 误差 增 大 ,这 时 与 输入 实例 较 远 的 训练 实例 也 会 对 预 
测 起 作用 ,使 预测 发 生 错 误 。 在 实际 应 用 中 ,k 值 一 般 选 择 一 个 较 小 的 数值 ,通常 采用 交 
叉 验证 的 方法 来 选择 最 优 的 & 值 。 

算法 中 的 分 类 决 宋 规则 往往 是 多 数 表 决 , 即 由 输入 实例 的 & 个 最 邻近 的 训练 实例 中 
的 多 数 类 决定 输入 实例 的 类 别 。 

EARE KH L, KREDKI ,在 度量 之 前 ,应 该 将 每 个 属性 的 值 规范 化 ,这 
样 有 助 于 防止 具有 和 较 大 初始 值 域 的 属性 比 有 具有 和 较 小 初始 值 域 的 属性 的 权重 大 。 


4. 1.2 近邻 算法 的 特点 


KNN 算法 的 优点 如 下 。 

d) 简单 有效 .复杂 度 低 、 无 须 参 数 估计 无须 训练 。 

(2) 精度 高 ,对 噪声 不 敏感 。 

(3) AF KNN 方法 主要 徘 周 围 有 限 的 邻近 的 样本 ,而 不 是 徘 判 别 类 域 的 方法 来 确 
定 所 属 类 别 的 ,因此 对 于 类 域 的 交叉 或 重 付 较 多 的 得 分 样本 集 来 说 ,KNN 方法 较 其 他 方 
法 更 为 适合 。 

(4) 特别 适合 于 多 分 类 问题 ,其 表现 性 能 比 SVM 效果 更 好 。 

KNN 算法 的 缺点 如 下 。 

CD 对 计算 样本 分 类 时 ,计算 量 大 ,每 一 个 竺 分 类 的 样本 要 与 全 体 已 知 样本 计算 距 
离 ,才能 得 到 个 最 邻近 点 。 

(2) 可 解释 性 差 ,无 法 像 决 策 树 算法 (第 5 章 将 介绍 ) 一 样 有 效 解释 。 


(D 交 义 验证 也 称 为 循环 合计 ,是 将 一 个 样本 集 分 割 成 两 个 子 集 , 一 个 作为 训练 数据 用 ,一 个 作为 测试 数据 用 . 
之 所 以 说 循环 ,是 因为 分 割 的 操作 不 会 只 进行 一 次 ,而 是 会 循环 进行 ,保证 所 有 样本 均 有 测试 数据 和 训练 数据 的 机 会 。 
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(3) 样本 不 均衡 时 ,如 果 一 个 类 样本 容量 很 大 ,而 其 他 样本 容量 很 小 时 ,有 可 能 导致 
当 输 入 一 个 新 样本 时 ,该 样本 的 & 个 邻近 样本 中 很 可 能 该 类 占 大 多 数 。 

(4) 该 算法 比较 适用 于 样本 容量 比较 大 的 类 域 的 自动 分 类 ,而 那些 样本 容量 较 小 的 
类 域 采 用 该 算法 容易 产生 误 分 。 

(5) 玉 值 的 选取 对 分 类 效果 有 较 大 影 啊 。 


G^ 4.2 基于 k 近邻 算法 的 算法 改进 


在 上 一 节 中 提 到 KNN 算法 的 相应 缺点 ,针对 算法 缺点 ,研究 者 不 断 地 进行 算法 改 
善 ,如 改进 距离 图 数 改进 邻 距 离 大 小 等 ,并 衍生 出 一 系列 算法 ,如 快速 KNN 算法 LFast 
KNN(OFKNND ].£-d 树 KNN 算法 (k-dimensional tree KNN), 3& F Je PE fé fei E 4j 
KNN 5X iE CEntropy-KNNO, Æ F H þa E UL KNN 算法 [| Transductive Confidence 
Machines KNNCTCM-KNN) ] 等 6 。 

由 于 在 算法 运行 时 ,测试 样本 需要 与 所 有 样本 的 属性 进行 计算 ,然而 属性 中 往往 会 包 
含 不 相关 属性 或 相关 性 较 低 属性 ,此 时 标准 的 欧 氏 距离 将 会 变 得 不 准确 , 且 消 耗 大 量 的 计 
算 资 源 。 当 出 现 许 多 不 相关 属性 时 称 为 维 数 灾难 ,KNN 对 此 特别 敏感 。 对 于 此 问题 可 
进行 如 下 改进 。 

d) 消除 不 相关 属性 即 特 征 选择 。 该 步骤 在 数据 的 预 处 理 时 进行 。 

(2) 属性 加 权 。 即 将 属性 权 值 引 入 到 KNN 算法 中 。 原 始 的 KNN 算法 计算 距离 公 
式 如 式 (4.1) 所 示 , 引 入 权 值 后 ,其 距离 公式 如 式 (4.2) 所 示 ，。 


d, = P TERT "| (4, 1) 
k=] 


1/2 


di 3 | A Wh Eu (0 UU jh "| (4. A) 


式 中 ,d; 表示 样本 i SFR] 之 间 的 距离 ; n 表示 属性 总 数 ; a 表示 样本 i 中 的 第 h 个 属 
PE; wi; 表示 第 h 个 属性 的 权重 。 权 重 引 入 的 另 一 个 好 处 是 均衡 属性 值 ,假设 样本 属性 a 
和 属性 b 其 对 分 类 的 影响 作用 是 一 样 的 ,但 属性 a 的 属性 值 变化 区 间 为 1 一 10, 而 属性 
的 属性 值 变 化 区 间 为 1— 100 ,通过 欧式 距离 计算 的 方法 ,此 时 ,明显 属性 b 对 分 类 的 影响 
作用 大 于 属性 a 的 影响 ,这 种 情况 是 不 合理 的 。 因 此 ,通过 引入 权重 可 以 起 到 属性 均衡 的 
作用 ,类 似 于 归 一 化 处 理 。 

为 了 在 一 定 程度 上 解决 前 述 缺 点 (3) ,KNN 算法 通过 引入 改进 邻 距离 大 小 方法 进行 
改善 ,原始 KNN 算法 中 实例 邻近 的 类 别 被 认为 概率 是 相同 的 ,该 方法 是 引入 与 距离 成 反 
比 的 相似 度 参 效 。 原 始 的 KNN 算法 计算 分 类 时 ,每 类 权重 公式 如 式 (4.3) 所 示 , 引 入 相 
似 度 参 数 后 ,其 权重 计算 公式 如 式 (4.4) 所 示 。 
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k 

p(x.C;)— ,P.(a;,C;) (4. 3) 
i=] 
k 

p(x,C;)— > Sim(a; 3) P, (a;,C;) (4. 4) 
i21 


BREFI x Hy 个 最 近邻 样本 共 分 为 ; 类 , 式 中 ,p(xz;C; ) 表 示 得 分 类 样本 运 
属于 7 类 的 权 值 。Sim(a; ,zx) 表 示 最 近邻 样本 a; 5 x 之 间 的 相似 度 , 其 可 表示 为 a; 与 工 
之 间 欧 式 距 离 的 倒数 , 男 外 ， 


l i 是 类 别 C, 的 样本 
F, (a; ,C;) = | | 


4.2.1 快速 KNN 算法 


快速 KNN 算法 (Fast KNN,FKNN) 的 主要 目的 是 解决 计算 速度 问题 ,使 KNN 算法 
在 计算 大 样本 数据 时 ,不 产生 计算 爆炸 的 现象 。FKNN 算法 的 主要 思想 是 将 样本 进行 排 
FF. ,在 有 序 的 样本 队列 中 搜索 & 个 最 邻近 样本 ,从 而 减少 搜索 时 间 。 

FKNN 算法 首先 确定 一 个 基准 点 尺 , 根 据 各 样本 到 R 的 距离 建立 有 序 的 队列 由 ,并 建 
立 一 张 关于 有 序 的 索引 表 久 。 在 给 定 待 分 类 样本 x 后 ,首先 计算 xz 到 R 的 距离 dr ,然后 
在 有 序 的 样本 索引 表 中 查找 距离 R 最 接近 dr 的 样本 g ,之 后 ,以 样本 q 为 中 心 , 确 定 g 在 
索引 表 中 的 前 后 样本 q go ,然后 ,根据 这 两 个 样本 截取 有 序 队列 中 所 有 属于 这 两 个 样 
本 间 的 样本 ,并 计算 其 与 待 测 样本 z 的 距离 ,最 终 选取 上 个 距离 最 近 样 本 ,此 时 , 即 找 到 了 
k 个 近邻 样本 。 

假设 样本 属性 空间 为 二 维 , 通 过 实例 分 析 
FKNN 算法 原理 。 由 于 梓 本 属性 空间 为 二 维 , 因 此 
其 样本 可 表示 在 二 维 平 面 上 , 如 图 4. 2 所 示 。 
FKNN 算法 具体 执行 步骤 如 下 。 

(1) 随机 选择 一 个 样本 作为 基准 点 ,假设 点 
Rr, ,ro ) ,ri sr。 为 属性 值 。 

(2) 计算 每 个 样本 到 R 的 距离 a ,并 采用 排序 的 
方法 ,形成 一 个 有 序 的 队列 Queue, 

(3) 为 了 考虑 读 盘 查找 及 搜索 的 快速 性 ,在 大 
样本 的 情况 下 ,可 建立 索引 表 。 案 引 表 中 登记 有 序 





D 队列 中 包含 所 有 样本 到 R 的 距离 d .样本 类 别 \ 特 征 向 量 . 
D 在 大 样本 情况 下 ,索引 表 并 不 是 包含 所 有 样本 ,而 是 每 间隔 一 段 距 离 选 取 一 个 样本 。 
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样本 队列 中 的 第 1,1 十 LL;,1 十 2L,… ,1 十 谍 ,… Os [m/L DL] BOR, 

(4) 给 定 待 分 类 样本 xz, 计算 xz SIR 的 距离 dx ,在 索引 表 中 查找 与 RR 最 接近 的 样本 
q ;以 样本 g 为 中 心 ,确定 q 在 索引 表 中 的 前 后 样本 g， 和 qs ,然后 ,根据 这 两 个 样本 截取 有 
序 队 列 中 所 有 属于 这 两 个 样本 间 的 样本 ,并 计算 其 与 待 测 样本 zx 的 距离 ,最 终 选 取 上 个 距 
离 最 近 样 本 。 

(5) 根据 式 (4.4) 确 定 样本 m 的 分 类 。 

图 4. 2 中 ,虚线 圆 是 以 尺 为 圆心 ,以 案 引 表 中 的 各 个 体 与 RR 的 距离 为 半径 绘制 的 距 
离 分 界线 。 方 框 为 待 分 类 样本 , 圆 形 及 三 角形 为 已 知 类 别 的 样本 。 

通过 FKNN 算法 ,相对 于 传统 的 KNN 算法 ,减少 了 大 量 的 关于 待 分 类 样本 与 样本 
间距 离 的 计算 ,在 保证 精度 的 前 提 下 ,提高 了 算法 的 执行 效率 。 


4.2.2 k-d Pf KNN 算法 


k-d 树 (k-dimensional W HY fj PR) e — Rp A 3| k 维 数据 空间 数据 结构 的 方法 ,主要 应 
用 于 多 维 空间 关键 数据 的 搜索 (如 范围 搜索 和 最 近邻 搜索 )。&-d 树 是 二 进 制 空 间 分 割 树 
的 特殊 的 情况 。k-d 树 KNN 算法 则 是 将 &-d 树 的 方法 运用 到 KNN 算法 中 ,目的 是 实现 
快速 计算 中， 

以 一 个 简单 直观 的 实例 来 介绍 &-d 树 算法 。 假 设 有 6 个 二 维 数据 点 {(2,3),(5,4)， 
(9,6),(4,7),(8,1),(7,2)) ,数据 点 位 于 二 维 空间 内 ,如 图 4.3(a) 中 黑 点 所 示 。R&-d 树 算 
法 就 是 要 确定 图 4. 3 中 这 些 分 割 空间 的 分 割 线 ( 多 维 空 间 即 为 分 割 平面 ,一 般 为 超 平面 )。 
下 面 将 一 步 步 展 示 有 有 -d 树 是 如 何 确定 这 些 分 割 线 的 。 





图 4.3 k&-d 树 算法 实例 


数据 维度 只 有 二 维 , 所 以 可 以 简单 地 给 muy 两 个 方 问 轴 编 号 为 0 和 1, 也 即 split = 
ONGA 


" : » bi m 
Z à 
* * 
" P 
: + 
D > 
-* = 
= » 
M * 
z "oa 4 . 和 
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(1) 确定 split 域 的 首选 值 。 分 别 计 算 x.y 2r p] EI 8 39 73 25 3A x 77 I5] E H9 7; 25 
最 大 ,所 以 split 值 首 先 取 0 ,也 就 是 v 587r qul. 

(2) 确定 结 点 值 (Node-data)。 根 据 x 轴 方 向 的 值 2、.5、9、4、8、7 排序 选 出 中 值 为 7， 
所 以 Node-data— (7,2). 3X FE «VA 28 Ea BJ 23 $8 ER F TEL LIBE b (720 JF 3EE H F split 一 0(x 
ADR) EE x= 二 7。 

(3) 确定 左 子 空间 和 右 子 空间 。 分 割 超 平面 x==7 将 整个 空间 分 为 两 部 分 ,如 图 4. 3 
所 示 。z 生 7 的 部 分 为 左 子 空间 ,包含 3 个 结 上 {1(2,3), €65,40. (4,7035 男 一 部 分 为 右 于 
空间 ,包含 两 个 结 点 1(9,6),，(8,1)}。 

(4) &-d 树 的 构建 是 一 个 递归 的 过 程 。 然 后 ,对 左 子 空 间 和 右 子 空间 内 的 数据 重复 根 
结 点 的 过 程 就 可 以 得 到 下 一 级 子 结 点 (5,4) 和 (8,1)( 也 就 是 左右 子 空 间 的 根 结 点 ), 同 时 
将 空间 和 数据 集 进 一 步 细 分 。 如 此 反复 直到 空间 中 只 包含 一 个 数据 点 ,如 图 4. 3(a) 所 
示 。 最 后 生成 的 &-d 树 如 图 4. 3(b) 所 示 。 

将 上-d 树 算 法 的 事项 运用 到 KNN 算法 中 ,形成 &-d 树 的 人 NN 算法 ,其 思想 是 用 &-d 
树 快速 查找 邻近 点 。 同 样 运用 实例 进行 讲解 ,如 图 4.4 所 示 。 

星 号 表示 待 分 类 的 点 (2. 1,3.1)。 通 过 二 叉 搜 ， 
索 , 顺 着 搜索 路 径 很 快 就 能 找到 最 邻近 的 近似 点 ,也 lU 
就 是 先 从 (7,2) 点 开始 进行 二 叉 查 找 , 通 过 计算 距离 8 
的 方法 , 先 到 达 (5,4) ,最 后 到 达 叶 子 结 点 (2,3)。 而 
找到 的 叶子 绪 点 并 不 一 定 就 是 最 邻近 的 ,最 邻近 肯 征 
距离 查询 点 更 近 ,应 该 位 于 以 查询 点 为 圆心 且 通 过 叶 4 
了 了结 点 的 圆 域内 。 为 了 找到 真正 的 最 近邻 ,还 需要 进 
行 “ 回 溯 ” 操 作 。 首 先 以 (2,3) 作 为 当前 邻近 点 ,计算 
其 到 待 分 类 点 (2. 1,3.1) 的 距离 为 0.1414, 然 后 回溯 到 — O l0 x 
其 父 结 点 (5,4) ,并 判断 在 该 父 结 点 的 其 他 子 结 点 空间 图 4.4 k-d 树 KNN 算法 实例 
中 是 否 有 距离 查询 点 更 近 的 数据 点 。 以 (2.1,3.1) 为 圆 
心 , 以 0.1414 为 半径 画 圆 ,如 图 4.4 所 示 。 发 现 该 圆 并 不 和 超 平 面 > 一 4 区 制 , 因 此 不 用 
进入 (5,4) 结 点 右 子 空 间 中 去 搜索 (换言之 ,如 果 有 交 制 , 则 需要 进入 (5,4) 结 点 右 子 空间 
中 去 搜索 ) , 即 点 (2,3) 为 待 分 类 点 (2.1,3.1) 的 邻近 点 。 之 后 ,将 找到 的 最 近邻 近 点 去 掉 ， 
进行 往复 查找 , 即 可 找到 个 邻近 点 。 


P 


("4.3 k 近邻 算法 的 MATLAB 实践 


基于 KNN 的 相关 算法 ,已 成 功 应 用 于 手写 体 识 别 、 数 学 验证 码 识别 文本 分 类 、 聚 类 
分 析 、 预 测 分 析 、 模 式 识 别 、 图 像 处 理 等 。 对 于 如 何 实现 KNN 算法 ,针对 传统 KNN 算法 ， 


NNNM x 
可 分 为 7 步 。 

(1) 初始 化 距离 值 为 最 大 值 ,便于 在 搜索 过 程 中 欠 代 摊 。 

(2) 计算 待 分 类 样本 和 每 个 训练 样本 的 距离 dist, 

(3) 得 到 目前 太 个 最 邻近 样本 中 的 最 大 距离 maxdist。 

(4) 如 果 dist 小 于 maxdist, 则 将 该 训练 样本 作为 有 最 邻近 样本 。 

(5) 重复 步 又 (2)、(3)、(4), 下 到 未 知 样本 和 所 有 训练 样本 的 距离 都 算 完 。 

(6) 统计 邻近 样本 中 每 个 类 标号 出 现 的 次 数 。 

(7) 选择 出 现 频 率 最 大 的 类 标号 作为 未 知 样本 的 类 标号 。 

下 面 通过 MATLAB 实例 的 方法 ,演示 KNN 算法 的 具体 应 用 。 假 设 , 有 一 个 具体 应 
用 为 区 分 某 一 电影 为 动作 片 还 是 武侠 片 。 首 先 , 需 要 建立 已 知 标签 的 样本 ,通过 HA. [统计 
或 数字 图 像 处 理 技术 统计 众多 电影 中 打斗 镜头 和 接吻 镜头 数 ,并 对 相应 的 电影 进行 标签 
标注 。 之 后 ,如 果 有 一 部 未 看 过 的 电影 ,如 何 通过 机 需 计 算 的 方式 判断 其 为 动作 片 还 是 爱 
情 片 。 此 时 ,就 可 以 使 用 KNN 算法 解决 。 

为 了 方便 起 见 , 对 于 有 标签 的 数据 样本 通过 MATLAB 随机 生成 ,其 主要 利用 两 个 随 
机 融 期 分布 生 成 两 类 数据 (假设 打斗 镜头 数 .接吻 镜头 数 可 为 小 数 ) ,并 对 第 一 类 数据 ( 假 
设 为 动作 片 ) 标 记 为 1.29 — 28 29048 Coi 29 28 IH Hh 0 bi 2J 2. 

待 检测 样本 分 别 为 接吻 镜头 数 3 一 7 遍历 和 打斗 镜头 数 3 一 7 38 Do r^ ^k Ry 25 个 数据 ， 
通过 KNN 算法 ,对 电影 类 别 的 判断 结果 如 图 4. 5 所 示 ( 详 见 文 前 彩 插 ) ,其 中 “。” 表 示 动 
作 片 “x ”表示 爱情 片 。 编 写 代 码 实 现 KNN 算法 如 下 (KNN_Self. m X f£); 


%% KNN 算法 MATLAB 实现 
clear all; 


close all; 


clc; 
% 利用 高 斯 分 布 ,生成 动作 片 数 据 和 标签 
aver1 = [8 3]; % 均值 
covarl = [2 0;0 2.5]; 上 二 维 数 据 的 协 方差 
datal = mvnrnd(averl,covarl,100); 多 产生 高 斯 分 布 数据 
for i=1:100 & 令 高 斯 分 布 产生 数据 中 的 复数 为 0 
for ]=1:2 当 因 为 打斗 镜头 数 和 接吻 镜头 数 不 能 为 负数 
if datal(i,j)«0 
datal(i,j) 70; 
end 
end 
end 
labell = ones(100,1); s 将 该 类 数据 的 标签 定义 为 1 


plot(datal(:,1),datal(:,2),' * '); ss 用 + 绘制 出 数据 


: 60 : 机 器 学 习 入 门 到 实战 一 MATLAB 实 践 应 用 


axis([-1 12-1 12]); % 设 定 两 坐标 轴 范 围 


xlabel(' 打 斗 镜头 数 ') ; * 标记 横 轴 为 打斗 镜头 数 
ylabel( ' 接 吻 镜 头 数 ') ; & 标记 纵 轴 为 接吻 镜头 数 
hold on; 


ss 利用 高 斯 分 布 ,生成 爱情 片 数据 和 标签 

aver2= [3 8]; 

covar2 = [2 0;02.5]; 

data2 = mvnrnd(aver2,covar2,100); 丰产 生 高 斯 分 布 数据 


for i-1:100 % 令 高 斯 分 布 产生 数据 中 的 复数 为 0 
tor 1=1:2 S 因为 打斗 镜头 数 和 接吻 镜头 数 不 能 为 负数 


if data2(i,j)«0 
data2(i,j) =0; 


end 
end 
end 
plot(data2(:,1),data2(:,2), 'ro'); % 用 ro 绘制 出 数据 
label2 = labell + 1; & 将 该 类 数据 的 标签 定义 为 2 


data = [ datal ; data2]; 
label = [labell;label2]; 
K- 11; * 两 个 类 ,一 般 K 取 奇数 有 利于 测试 数据 属于 哪个 类 
$ 测试 数据 , KNN 算法 看 这 个 数 属 于 哪个 类 ,测试 数据 共计 25 个 
打斗 镜头 数 遍 历 3 一 7, 接吻 镜头 数 也 遍历 3 一 7 
for movenum = 3:1:7 
for kissnum = 3:1:7 
test data = [movenum kissnum]; s; 测试 数据 ,为 5X5 矩阵 
下 面 开 始 KNN 算法 ,显然 这 里 是 11NN 
% 求 测试 数据 和 类 中 每 个 数据 的 距离 ,欧式 距离 (或 马 氏 距离 ) 
distance = zeros(200,1); 
for i= 1:200 
distance(i) = sqrt((test_data(1) - data(i,1)).^2 + (test data(2) - data( i, | 


2)).*2)5 
end 
s 选择 排序 法 ,只 找 出 最 小 的 前 个 数据 ,对 数据 和 标号 都 进行 排序 
for 1=1:K 


ma = distance(1); 
for j=i+1:200 
if distance(]j)« ma 
ma = distance(j); 


label ma = label(j); 
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tmp = jJ; 
end 

end 

distance(tmp) = distance(i); s 排 数 据 

distance(i) = ma; 

label(tmp) - label(i); * 排 标签 

label(i) = label ma; 
end 
clsi-0; s 统计 类 1 中 距离 测试 数据 最 近 的 个 数 


for 1=1:K 
if label(i) == 1 
cls1 = clsl+1; 


end 
end 
cls2 = K- clsl; & 类 2 中 距离 测试 数据 最 近 的 个 数 
1f cls1 > cls2 

plot(movenum,kissnum, 'k.'); * 属于 类 1( 动 作 片 ) 的 数据 画 小 黑 点 
else 


plot(movenum,kissnum, 'g* '); s 属于 类 2( 爱 情 片 ) 的 数据 画 绿 色 * 


end 


label = [labell;label2]; % 更 新 label 标签 排序 
end 


end 


Ticilg gz 3c ti 





打斗 镜头 数 


图 4.5 KNN 算法 电影 类 型 分 类 
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上 述 是 通过 自己 编写 代码 实现 KNN 算法 ,会 发 现代 码 极其 元 长 ,尽管 大 多 数 时 候 网 
上 能 够 找到 一 定 的 资料 ,但 是 需要 不 断 地 调试 和 运行 代码 ,才能 够 编写 出 适合 自身 应 用 的 
代码 。 对 于 初学 者 而 言 ,将 严重 打击 其 积极 性 ,并 且 对 于 但 回应 用 的 研究 者 ,更 关注 的 是 
如 何 快 速 应 用 ,而 不 是 编写 和 调试 代码 。 

鉴于 以 上 ,作者 想 告 诉 读 者 的 是 ,其 实 MATLAB 内 部 早已 经 将 大 量 算法 的 代码 进行 
了 封装 ,并 提供 标准 的 接口 ,以 便于 应 用 。 这 也 是 为 什么 作者 选择 MATLAB 这 一 数学 平 
台 工 具 作 为 初学 者 人 门 的 原因 。 

Æ MATLAB 中 ,进行 KNN 算法 进行 分 类 的 最 基本 困 数 为 CLASS = knnclassify 
(SAMPLE ,TRAINING,GROUP) ,其 中 ,SAMPLE 表示 待 分 类 样本 和 矩阵; TRAINING 
表示 已 知 标签 的 样本 和 矩阵; GROUP 表示 已 知 标签 样本 的 标签 ; CLASS 为 KNN 算法 计算 
后 得 到 的 SAMPLE 分 类 样本 的 标签 。 函 数 中 没有 定义 KNN 算法 中 的 天 值 ,表示 此 时 采用 
默认 值 1。 对 于 MATLAB 中 调用 CLASS= knnclassify (SAMPLE, TRAINING, GROUP, 
K) ,将 定义 KNN 算法 中 的 KK 值 。 另外 ,CLASS= knnclassify (SAMPLE, TRAINING: 
GROUP,K,DISTANCE) 中 ,参数 DISTANCE 表示 对 距离 计算 方法 的 选择 ,在 调用 前 两 
个 函数 时 ,都 采用 欧 氏 距离 ,同时 ,距离 也 可 按照 需求 进行 定义 ,其 可 选 参 数 包 括 
euclidean,cityblock,cosine correlation 和 Hamming, 

读者 可 在 MATLAB 的 命令 行 窗口 中 输入 help knnclassify, 然 后 按 Enter 键 , 即 可 详 
细 查 看 knnclassify 算法 的 使 用 方法 ,以 及 各 参数 的 意义 。 下 面 利 用 knnclassify 进行 
KNN 算法 分 类 的 具体 实现 ,其 运行 结果 如 图 4.6 所 示 ( 详 见 文 前 彩 插 )。 其 中 ,x 和 * 为 
两 类 样本 数据 ,O 和 人 心 表 示 待 分 类 样本 数据 ,两 种 图 形 表 示 分 成 了 不 同 的 两 类 。 其 中 ， 
心 表 示 分 类 后 的 标签 与 关 的 样本 标签 相同 , O 表示 分 类 后 的 标签 与 * 的 样本 标签 相同 。 
编写 程序 文件 如 下 (KNN_Mat. m 文件 ): 


% € MATLAB Hir KNN 算法 函数 knnclassify 实现 
clc 


close all; 


clear 
| * 生成 200 个 样本 数据 

) training = [mvnrnd([2 2],eye(2), 100); mvnrnd([ 一 2 一 2]，2x eye(2), 100)]; 

| % mvnrnd([2 2],eye(2),100) 表 示 随 机 生成 多 元 正 态 分 布 100x2 和 矩阵 ,每 一 列 以 2,2 为 均值 , 
& eye(2) 为 协 方差 


& 200 个 样本 数据 前 100 个 标记 为 标签 1, 后 100 个 标记 为 标签 2 

group = [ones(100,1); 2 * ones(100,1)]; 

& 绘制 出 离散 的 样本 数据 点 

gscatter(training(:,1),training(:,2),group, 'rc','* x'); rc 表示 两 种 颜色 , * x 表示 两 种 形状 
hold on; 





[1] 
[2] 
L3] 
[4 ] 


L5] 


L6] 


#s 生 成 竺 分 类 样本 20 个 
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sample = unifrnd( - 2, 2, 20, 2); 

丰产 生 一 个 100x2 和 抢 阵 ,这 个 矩阵 中 的 每 个 元 素 为 20—30 连续 均匀 分 布 的 随机 数 
K= 3; % KNN 算法 中 KK 的 取 值 

cK = knnclassify(sample, training, group, K); 
gscatter(sample(:,1),sample(:,2),cK, rc','od'); 名 rc 表示 两 种 颜色 ,od 表示 两 种 形状 





* Figure 1 


文件 上 昌 ”编辑 ([E) Æ ÆA IR E0 &LK(W) 88H) 





图 4.6  knnclassify A HJ] KNN 分 类 
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人 5.1 决策 树 算法 原理 


5.1.1. 决策 树 算 法 基本 原理 


决策 树 (Decision Tree) 是 一 种 特别 简单 的 机 器 学 习 分 类 算法 。 决 策 树 想法 来 源 于 人 
类 的 决策 过 程 ,是 在 已 知 各 种 情况 发 生 概率 的 基础 上 ,通过 构成 决策 树 来 评价 项 目 风 险 ， 
判断 其 可 行 性 的 决策 分 析 方 法 ,是 直观 运用 概率 分 析 的 一 种 图 解法 。 由 于 这 种 决策 分 文 
画 成 图 形 很 像 一 柠 树 的 校 干 ,改称 决策 树 。 在 机 融 学 习 中 ,决策 树 是 一 个 预测 模型 ,其 代 
表 的 是 对 象 属性 与 对 象 信之 间 的 一 种 映射 关系 。 

决策 树 可 看 作 一 个 树 状 预测 模型 , 它 是 由 绪 点 和 有 问 分 支 组 成 的 层次 结构 。 树 中 包 
Tr 3 种 结 点 : 根 结 点 .内 部 结 点 .叶子 结 点 。 决 策 树 只 有 一 个 根 结 点 ,是 全 体 训 练 数据 的 
集合 。 树 中 每 个 内 部 结 点 都 是 一 个 分 裂 问题 ; 指定 了 对 实例 的 某 个 属性 的 测试 , 它 将 到 
达 该 箔 点 的 样本 按照 菏 个 特定 的 属性 进行 分 割 ,并 且 该 第 扣 的 每 一 个 后 继 分 广 对 应 于 该 
属性 的 一 个 可 能 值 。 每 个 叶子 结 点 是 带 有 分 类 标签 的 数据 集合 , 即 为 样本 所 属 的 
分 类 [12,3] 

为 了 便于 读者 理解 ,用 实例 的 方法 解释 各 概念 及 决策 树 算 法 流程 。 假 设 一 个 应 用 为 
推断 菜 个 把 于 是 人 否 出 门 玩 机 ,其 相应 的 样本 属性 包括 是 否 晴 大、 湿度 大 小 、 是 人 否 刮 风 , 通 过 
前 期 统计 , 带 标 签 的 数据 如 表 5. 1 所 示 , 序 号 1 一 6 的 数据 为 样本 数据 ,序号 为 7 的 数据 为 
待 分 类 数据 , 即 判别 在 该 属性 数据 情况 下 是 否 出 门 。 
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表 5.1 孩子 出 门 情况 统计 表 


序号 是 否 晴天 湿度 大 小 是 否 刮 风 是 否 出 门 (标签 ) 





| rün 
D an 
Tun 
UTE 
an 
: sun 


通过 表 5.1 建立 决策 树 模 型 ,如 图 5. 1 所 示 , 从 图 中 可 看 出 ,首先 对 数据 整体 样本 ( 即 

根 结 点 处 ) 按 照 茶 一 属性 进行 决 全 分 文 , 形 成 中 间 结 后 ,之 后 ,递归 分 文 , 卫 到 样本 划分 到 

-类 中 , 即 形成 叶子 结 点 。 对 于 表 5.1 中 的 序号 为 7 的 待 分 类 样本 ,将 其 带 入 决策 树 中 ， 

自 先 按 是 人 否 上 晴天 进行 分 文 , 其 属性 值 为 “ 古 ” 时 ,之 后 ,依据 其 湿度 值 为 “小 ”, 最 后 ,判断 是 
否 刮 风 为 “ 否 ”, 可 判断 该 数据 划分 到 “出门 "这 一 类 中 。 








AE T: 4 
根 结 点 
在 REX 4 
f 中 间 结 点 
小 二 湿度 大 小 入 /入 度 大 小、 大 
H]: 0 HI]: 1 
AUDI 1 不 出 | ]: 1 
^ BA 


WT ELS 





BI]: 1 
不 出 门 :0 


图 5.1 孩子 出 门 决策 树 


决 筑 树 是 一 种 十 分 第 用 的 分 类 方法 ,其 通过 样本 数据 学 习 得 到 一 个 树 形 分 类 天 ,对 于 
新 出 现 的 竺 分 类 样本 能 够 给 出 正确 的 分 类 。 对 于 创建 决 宋 树 的 过 程 , 其 步骤 如 下 。 

(1) 检测 数据 集中 的 每 个 样本 是 否 属于 同一 分 类 。 

(2) 如 果 是 , 则 形成 叶子 结 点 , 跳 转 到 步骤 (5)。 如 果 否 , 则 寻找 划分 数据 集 的 最 好 特 
征 45.2 证 将 介绍 方法 )。 
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(3) 依据 最 好 的 特征 ,划分 数据 集 ,创建 中 间 结 点 。 
(4) 对 每 一 个 划分 的 子 集 循环 步骤 (1)、(2)、(3) 。 
(5) 直到 所 有 的 最 小 子 集 都 属于 同一 类 时 , 即 形成 叶子 结 点 , 则 决策 树 建立 完成 。 


5.1.2. 决策 树 算 法 的 特点 


DR RS SL IE IG ERU. 

(1) RRP Y ERBERISCHL. HIP EE 2] id Fé PA Y REEL AE BU TECLAS BE UE 
卫 接 体现 数据 的 特点 ,只 要 通过 适当 的 解释 ,用 户 能 够 理解 决 倘 树 上 所 表达 的 意义 。 

(2) 速度 快 ,计算 量 相 对 较 小 , 且 容 易 转 化 成 分 类 规则 。 只 要 沿 看 根 千 点 癌 下 一 二 走 
到 叶子 结 点 ,沿途 分 神 条 件 是 唯一 且 确 定 的 。 

决 束 树 算 法 的 缺点 则 主要 是 在 处 理 大 样本 集 时 ,多 出 现 过 拟 合 现象 ,降低 分 类 的 准 


5.1.3 JRPS A 


决策 树 是 一 种 分 类 器 ,通过 ID3、C4.5 和 CART 等 方法 (5. 2 节 人 介绍) 可 以 通过 训练 
数据 构建 一 个 决策 树 。 但 是 ,算法 生成 的 决策 树 非 常 详细 并 且 庞 大 ,每 个 属性 都 锌 详 细 地 
加 以 考虑 ,决策 树 的 树叶 结 点 所 覆盖 的 训练 样本 都 是 绝对 分 类 的 。 因 此 用 决策 树 来 对 训 
练 样本 进行 分 类 时 ,会 发 现 对 于 训练 样本 而 言 ,这 个 树 表 现 完 好 ,误差 率 极 低 , 量 能 够 正确 
地 对 训练 样本 集中 的 样本 进行 分 类 。 但 是 ,训练 样本 中 的 错误 数据 也 会 被 决策 树 学 习 ,成 
为 决策 树 的 部 分 ,并 且 由 于 过 拟 合 ,对 于 测试 数据 的 表现 并 不 佳 ,或 者 极 差 。 

为 解决 上 述 出 现 的 过 拟 合 问题 ,需要 对 决策 树 进 行 藤 梳 处 理 。 根 据 况 校 所 出 现 的 时 
[R] e ^P [n] . p 23 fi 98 MUR B ds. T9 BUSCAR dE DROP ER] AE LE. Re PETI BU; Je 99 TE TE 
RER ERZ IAETH. nc HERES) iz. Bü B9 x RUE TELA TE BOB AE Ib 8 Eg E P 
缺点 ,因此 应 用 较 少 。 


1. 预 剪 枝 (Pre-Pruning) 


在 构 所 决策 树 的 同时 进行 前 梳 。 所 有 决策 树 的 构建 方法 部 是 在 无 法 进一步 分 校 的 情 
况 下 才 会 停止 创建 分 支 的 过 程 ,为 了 避免 过 拟 合 , 可 以 设 定 一 个 阅 值 , 当 信 息 炉 0 减 小 到 
小 于 这 个 国 值 时 ,即使 还 可 以 继续 降低 简 ,也 俘 止 继续 创建 分 文 , 而 将 其 作为 叶子 绪 点 。 


D AEM, fni IX LO fR * 艾 尔 伍德 .香农 用 数学 语言 曾 明 概率 与 信息 元 余 度 的 关系 ,5.2 市 将 详细 


2. ja 8i f& CPost-Pruning) 


DURO Ts sen ET S8 T. BU SCHULE ZEE A A Inl FE AC 25 ex B9 — 2H $5 r3 E 1 09 
d fd B HALLE I 7] P 4S BRL BL: DET T I euIkT RP. e 59 dE H B cir om HU 
做 法 。 
后 剪 校 的 剪 校 过 程 是 删除 一 些 子 树 ,然后 用 其 叶子 结 点 代替 ,这 个 叶子 结 点 所 标识 的 
类 别 通 过 大 多 数 原则 确定 。 有 所 请 大 多 数 原 则 ,是 指 剪 枝 过 程 中 ,将 一 些 子 树 删 除 而 用 叶 结 
点 代替 ,这 个 叶 结 点 所 标识 的 类 别 用 这 棵 子 树 中 大 多 数 训 练 样本 所 属 的 类 别 (Majority 
Class) Æ PRIER. 
EEE S UL AE HRA 3H Tr 2 2S BE BU j£ CCP(Cost Complexity Pruning) , 48 1X € 
EE IC 5] d REPCReduced Error Pruning) , 4E 31 89 ft PEP (Pessimistic Error Pruning) , fi 
N22 88 MEPCMinimum Error Pruning) 等 。 下 面 介 绍 前 两 种 剪 校方 法 ,为 谈 者 提供 
- XE HU) B BC AS IHE o 
(1) AMNERE CCP. CCP 方法 的 基本 思想 是 从 决策 树 TS 通过 剪 校 的 方式 ， 
不 断 地 修剪 决策 树 ,其 形成 一 个 子 树 的 序列 {To Tiot Tu). AP Toa ze T; 通过 修剪 
关于 训练 数据 集 误差 增加 率 最 小 的 分 文 得 来 。 对 于 决策 树 T, BERRE RCDD ,叶子 
结 点 数 为 L(T) ,在 结 点 处 修剪 后 ,误差 为 R(T,), 叶 子 结 点 数 为 L(T,), 修 前 前 后 误差 
增加 R(T,) 一 R(T) ,误差 增加 率 为 
RE 
L(T)—L(T,) 
决策 树 经 过 不 断 修剪 , 耳 到 误差 增加 率 大 于 某 一 设 定 国 值 , 则 修 竟 结束 。 下 面 利 用 具 
体 实例 进行 讲解 ,假设 依 徘 样本 数据 形成 决 案 树 如 图 5.2 所 示 。 其 中 ALB 为 样本 类 ,x、 
y.z 为 属性 ,用 i; 表示 结 点 位 置 。 
X 5. 2 表示 关于 图 5. 2 决策 树 的 剪 枝 数据 计算 过 程 及 结果 。 


表 5.2 ARASA a 计算 值 


T [ «0379085 0007 
T: a (t ) —0. 0375 a(t, ) —0. 0375 
T. TO | ——— — 


从 表 5. 2 中 可 看 出 ,在 原始 决策 树 T, 11.4 个 非 叶 子 结 点 中 的 Eih, AER 93 
t, 结 点 的 分 文 ,得 到 TT Æ T IP, ESR Mt, 的 wx 值 相同 ,但 是 裁剪 己 能 够 得 到 更 小 的 
RR AE T: 是 T. RDI 分 文 得 到 的 。 当 然 ,假设 误差 增加 率 的 国 值 设 定 为 0. 03, 
RBI 5 xt. 后 ,形成 决 末 树 Ti Ja ,裁剪 结束 。 

(2) RERI 5x REP. 1 8] x 77 15: 26: AR 1 Hi VOS E 11 9] , UI R DROPS A 93 HU 
I TR IERE RA PE ,就 可 以 认为 该 子 树 是 可 以 修剪 的 。REP BIA ia 2e H r EG) 2C 
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(4:50, B:10) 
(4:6, B:4) (4:1, B:14) 
z-Üü, z=] 
fio I 
(4:6, 5:0) (A:4, 5:0) 
图 5.2 决策 树 


集 进行 效 泉 验证。 原因 是 如 采用 旧 的 数据 集 , 不 可 能 出 现 修 筋 后 决策 树 的 错误 率 比 修 耍 
前 错误 率 要 辟 的 情况 。 由 于 使 用 新 的 数据 集 没 有 参与 决策 树 的 构建 ,能 够 降低 训练 效 据 
E) SE Ws] ,降低 过 拟 合 的 程度 , 捉 高 预测 的 准确 率 。 


5.1.4 分 类 决策 树 与 回归 决策 树 


通过 上 述 决策 树 的 讲解 ,对 于 利用 决 东 树 进行 分 类 问题 的 解决 比较 容 多 理解 ,但 是 ， 
对 于 回归 问题 利用 决 抹 树 处 理 往 往 存 在 疑惑 ,下 面 通过 两 者 对 比 ,理解 回归 决 师 树 。 

以 C4. 5 DRRR 2 IA] C4. 5 分 类 决策 榈 在 每 次 分 校 时 ,是 穷 举 每 一 个 属性 的 每 一 
个 国 值 ,找到 使 得 按照 属性 值 夺 国 值 ,和 属性 值 二 国 值 分 成 的 两 个 分 枝 的 烽 最 大 的 国 值 ， 
按照 该 标准 分 校 得 到 两 个 新 结 点 ,用 同样 的 方法 继续 分 校 是 到 上 所 有 样本 数据 部 被 分 人 唯 
一 的 叶子 秆 点 ,或 达到 预 设 的 终止 条 件 , 右 最 终 叶 子 结 点 中 的 标签 类 列 不 唯一 , 则 以 多 数 
人 的 性 别 作为 该 叶子 结 点 的 性 别 。 分 类 决 束 树 使 用 信息 增益 或 增益 比例 来 划分 结 后 ; 每 
个 结 点 样本 的 类 别 情况 通过 多 数 原则 决定 。 

回归 决 宁 树 总 体 流程 也 是 类 似 , 区 别 在 于 ,回归 决策 树 的 每 个 绩 氮 (不 一 定 是 叶子 续 
所 ) 虱 会 得 到 一 个 预测 值 ,以 年 龄 为 例 , 该 预测 值 等 于 属于 这 个 结 点 的 所 有 人 年 龄 的 平均 
值 。 分 校 时 穷人 举 每 一 个 属性 值 的 每 个 国 值 找 最 好 的 分 割 点 ,但 衡量 最 好 的 标准 不 再 是 最 
大 灿 , 而 是 最 小 化 均 方差 。 也 就 古 被 预测 出 错 的 人 数 越 多 , 针 得 越 离 请 , 均 方 差 吕 越 大 , 通 
过 最 小 化 均 方差 能 够 找到 最 可 徘 的 分 枝 依 据 。 分 校 十 到 每 个 叶 了 于 结 点 上 人 的 年 龄 都 唯一 
或 达到 预 设 的 终止 条 件 ( 如 叶 了 于 个 数 上 限 ), 夺 最 终 叶 子 结 点 上 人 的 年 龄 不 唯一 , 则 以 该 结 
尽 上 所 有 人 的 平均 年 龄 作为 该 叶 于 结 点 的 预测 年 龄 。 回 归 决 案 树 使 用 最 大 均 方 差 划 分 结 


点 ; 每 个 结 点 样本 的 均值 作为 测试 样本 的 回归 预测 值 。 
D52 基于 决策 树 算法 的 算法 改进 


在 5.1.1 节 对 于 决策 树 形成 步骤 介绍 时 , 提 到 一 个 概念 “数据 集 的 最 好 特征 ”, 它 是 决 
策 树 形成 时 进行 逐 层 划分 的 依据 。 为 了 描述 这 个 “最 好 的 特征 ”, 需 要 引入 一 个 重要 的 概 
nid. CE 198 年 ,香农 提出 的 用 于 表征 信息 量 大 小 与 其 不 确定 性 之 间 的 关 
系 。 假 设 当 前 样本 集合 D 中 共 包 含 n 类 样本 ,其 中 ,第 类 样本 所 占 的 比例 为 pi,(k=1， 
2,3,…,n), 则 DD BS fei a AH XE X 2J : 


Ent(D) —— > pilogs pa Ei. 2) 
k—1 


X TAR S Ent D) ,也 可 以 称 为 信息 的 姿 乱 程度 ,其 数值 越 大 , 则 表示 不 确定 性 
越 大 。 


5.2.1 ID3 决 策 树 


ID3 决策 树 算法 是 指 依 据 上 述 的 信息 粹 Info(CD) 进 行 分 叉 的 算法 。 为 了 表征 决策 树 
在 分 叉 时 属性 选择 的 好 坏 ,通过 信息 增益 量 (Information Gain) 进 行 表示 : 
GainCA) — InfoCD) — Info A(D) (3.3) 
式 中 ,Info(CD) 表 示 数 据 集 D 的 信息 量 ,Info_A(D) 表 示 以 属性 A 进行 划分 时 ,获得 结 点 
关于 分 类 标签 的 信息 量 。 一 般 而 言 , 信 息 增 益 量 越 大 , 则 意味 着 使 用 属性 A 来 进行 划分 
所 获得 的 “纯度 提升 ”* 越 大 。 因 此 ,可 以 用 信息 增益 量 来 进行 决策 树 的 划分 属性 的 选择 。 
著名 的 ID3 决策 树 学 习 算 法 就 是 以 信息 增益 量 为 准则 来 选择 划分 属性 的 。 
同样 ,用 简单 的 实例 进行 讲解 ,以 便 读者 能 够 具体 地 理解 ID3 算法 的 执行 方法 。 假 设 
样本 数据 如 表 5. 3 所 示 。 
表 5.3 客户 购买 计算 机 数据 统计 表 
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依据 表 5. 3 中 的 数据 ,进行 决策 树 建 立 , 对 于 初学 者 一 定 开始 迷惑 ,决策 树 第 一 次 分 

叉 是 选择 年 龄 ,收入 、 学 生还 是 信用 等 级 呢 ?” 值 得 庆 垃 的 是 ,上 文中 了 解 到 信息 增益 量 这 

-概念 , 且 信 息 增益 量 大 的 属性 越 应 该 作为 样本 分 义 的 属性 。 下 面 分 别 计算 样本 的 信息 
A Info(D) 及 以 某 属性 进行 划分 时 ,得 到 结 点 的 信息 量 Info AD). 


SE Si PRX eu 

Info( D) — 14 log. 5) 14 log, (3 )= 0. 940 

fo «itiDy— 9(— 2 (£)- 3 (3 ) z(-ee[i-2 (1) 
info. 4f (D)— > 5 log» | 5 5 log: 5 k 4 og nu g og " T 


a- i log; FFH H log» (£J)- 0. 694 
相同 方法 计算 Info. I A. (D)=0. 911, Info ?£/E(D)0. 798, Info fi HH (D) = 
0. 892。 相 应 的 信息 增益 量 分 别 为 Gain FR) —0. 246. Gain CE ^E) —0. 151. Gain Cfi HD = 
0.048 ,Gain( 收 入 ) 王 0.029。 通 过 大 小 比较 ,可 知 年 龄 属性 的 信息 增益 量 最 大 ,因此 ,此 次 
分 叉 属 性 选择 年 龄 属性 。 分 叉 后 形成 的 结 点 包含 的 数据 作为 新 的 数据 集 ,依据 上 述 方法 ， 
依次 类 推 , 即 可 建立 整个 决策 树 。 


5.2.2 C4.5 决策 树 


C4. 5 是 机 冀 学 习 算 法 中 的 一 个 分 类 决 宁 树 算 法 , 它 是 决策 树 核心 算法 ID3 的 改进 
C4.5 决策 树 实现 决策 树 分 又 时 ,属性 的 选择 是 依 徘 参 数 “ 信 息 增益 率 ” 进 行 的 。 信 息 
增益 率 使 用 "分 类 信息 值 ? 将 信息 增益 规范 化 "” 。 对 于 属性 A 信息 增益 率 通过 下 式 进行 
计算 : 
GainCA) 


SplitInfoCA) (5. 4) 


GainRatio( À ) — 
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式 中 ,Gain(A) 可 通过 上 小 节 的 介绍 进行 计算 ,SplitInfo(A) 表 示 分 类 信息 但, 其 公式 
WF: 
SplitInfo( A ) —— D | 一 | - (5.9) 
p ( ) ram D D| 


式 中 ,D 表示 数据 集中 样本 个 数 ,n 表示 数据 集中 属性 A 所 具有 的 属性 值 的 个 数 ,) 表示 
数据 集中 属性 A 所 具有 的 属性 值 的 标号 ; D; 表示 数据 集中 属性 A 的 值 等 于 编号 j 对 应 
的 值 的 样本 个 数 。 

下 面 ,借助 表 5. 3 中 的 数据 ,对 C4. 5 算法 进行 实例 讲解 。 首 先 ,依据 式 (5.5) 计 算 。 


SplitInfo( 年 龄 ) —— > log; Conr 14 8 f ES — log; E 1.54114 
ic diit a 4 4 | 4 — 
SplitInfo( 收 入 ) =— 14 log; (4 8 — log: E 去 — log; i = 1.5567 
SplitInfo (2€ 4E )=— E 1 1°82 ahi 1; log e j- 1.0 


SplitInfo( 信 用) 三 7. log; | iji ET log; [2 = 0.9852 


依据 5.2.1 Pil M Lunge 4), 可 计算 GainRatio CAE $) — 0. 156, 
GainRatioCIK À) —0. 0186, GainRatioC^E/"E) —0. 151,GainRatioCfri HD =0. 049. fri ES 
ir GainRatioCAF flit ) HJ fri B I 3 S gc. . fr VL ex — I PE TE 2g ib £1 2r Sc 8388 TE 

a nnn 

C) 用 信息 增益 认 来 选择 属性 , 殉 服 了 用 信息 增益 选择 属性 时 偏 回 选择 取 值 多 的 属 
性 的 不 足 。 

(2) ERR BI TE iE Fe rib 11594 , 

(3) 能 够 完成 对 连续 属性 的 离散 化 处 理 ， 

(4) 能 够 对 不 完整 数据 进行 处 理 。 

C4.5 算法 的 优点 是 产生 的 分 类 规则 易于 理解 ,准确 率 较 高 ; 缺点 是 在 构造 树 的 过 程 
中 ,需要 对 数据 集 进 行 多 次 的 顺序 扫 摘 和 排序 ,因而 导致 算法 的 低 效 。 此 外 ,C4.5 只 适合 
于 能 够 驻 留 于 内 存 的 数据 集 , 当 训练 集 大 得 无 法 在 内 存 容纳 时 程 厅 无 法 运行 


5.2.3 分 类 回归 树 


分 类 回归 树 (Classification And Regression Tree. CART) ti Jgj F — Bp H 4 Py CART 
模型 最 早 由 Breiman 等 提出 ,已 经 在 统计 领域 和 数据 挖掘 技术 中 普遍 使 用 。CART 决策 
树 是 通过 引入 GINI 指数 (与 信息 炉 的 概念 相似 ) 增 益 GINL_Gain(CA) 作 为 分 文 时 属性 的 
ARRE, 

同样 ,以 表 5. 3 中 的 数据 为 例 ,进行 计算 。 先 以 年 龄 属性 为 例 ,介绍 计算 过 程 。 其 中 ， 
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青年 群体 中 有 3 个 未 购 头 ,2 个 购买 ,得 到 : 
GINI( 年 龄 ;青年 )= 1 一 ib 十 i J]- 0. 48 
其 中 ,中 年 群体 中 4 个 都 购买 ,得 到 ， 
GINI( 年 龄 :中 年 )= 1 一 (4) ]- 0 
其 中 ,老年 群体 中 3 个 购买 ,2 个 未 购买 ,得 到 
GINI( 年 龄 :老年 )= 1 一 [人 ] + i) I" 0. 48 


对 于 年 龄 属性 的 GINI 指数 增益 为 ; 
c 
14 


利用 同样 的 方法 ,得 到 ,GINI MM UN 4405, GINI Gain ?E/E) — 0. 3673, 
GINI Gain ({ġ H) =0. 4048。 选 择 最 小 的 GINI 指数 增益 作为 分 支 属 性 , 即 选择 年 龄 属性 
Jt TTA] X. 


GINI Gain( 年 龄 ) = x 0.48 us — "ha 0 十 了 1” 0.48 = 0. 3429 


5.2.4 随机 森林 


BE BL P da I1] Je] H Ao PR D TRU. (类似 一 三 森林 ) 对 梓 本 进行 训练 并 预测 的 一 种 分 类 

售 。 该 分 类 项 最 早 由 Leo Breiman 和 Adele Cutler 提出 ,并 被 注册 成 了 和 商标。 在 机 闫 学 

jm. "mum -个 包 舍 多 个 决 宁 树 的 分 类 如 ,并且 其 输出 的 类 别 是 由 个 别 树 输出 的 类 

别 的 众 数 而 定 。 这 个 方法 则 是 结合 Breiman 的 “Bootstrap aggregating” 想 法 和 Ho 的 
“random subspace method” 以 建造 决策 树 的 集合 -5 。 


: ? 5. 3 决策 树 算 法 MATLAB 实践 


Æ MATLAB 中 ,为 方便 用 户 对 决策 树 算 法 的 使 用 ,MATLAB 中 针对 分 类 决策 树 和 
[n] UH De PS. Ay nd Ae Y VA EAE: fitctree 和 fitrtrree。 由 于 分 类 决 案 树 和 回归 决策 树 两 
者 具有 极 大 的 相似 性 ,因此 fitctree 和 fitrtree 两 者 的 使 用 方法 也 基本 一 致 。 

分 类 决策 树 fitctree 函数 在 决策 树 进行 分 支 时 ,采用 的 是 CART 方法 。 其 使 用 方法 
为 TREE = fitctree (TBL,Y), 其 中 , TBL 为 样本 属性 值 窍 阵 ,Y 为 样本 标签 。 利 用 
MATLAB 中 月 市 的 统计 3 种 兹 尾 属 植物 样本 数据 fisheriris, 其 属性 分 别 YESKE AE 
本 宽度 .化 次 长 度 . 4E Du E ,标签 分 别 为 'setosa'、versicolor' 和 'virginica', 具体 代码 如 下 
(Dectree Mat. m WIF): 
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%% CART 决策 树 算法 MATLAB 实现 





clear all; | 
close all; 

ples 
load fisheriris s 载 人 样本 数据 

t= fitctree(meas, species, 'PredictorNames', ('SL' 'SW' 'PL' 'EW']) 定义 4 种 属性 显示 名 称 | 
view(t) * 在 命令 行 窗口 中 用 文本 显示 决策 树 结 构 | 





view(t, 'Mode', 'graph') $ 图形 显 示 决 策 树 结构 


运行 后 显示 结果 如 图 5.3 所 示 。 


«| Classification tree viewer 


文件 昌 ”工具 中 ”桌面 (D) Tree SOW) RIH) 


Click to display: Identity | Magnification; |100% v Pruning level: 


PL«2454p| >= 245 


PW < 1.7572: W >= 175 


virginica 


PL < 4.95 /XPL >= 495 


PW < 1.65 ZAPW >= 1.65 Ow. 
| virginica 


versicolor virginica 





图 5.3 高 尾 属 植物 决策 树 分 类 


MATLAB MS ITA HERRAR: 


m m m m m; m mon m GEO m Gm Om GE UE Gm Gm UU ED GR UD GO OD GEO GO UGZO GHÉO GEO GE GAS GEO GS E UE GADO GE GE UE UE GR UE GOOD GO GO GEO GGG GA UO GED JURO GED OG UE GEORGES GRO UE GDOGUS GE GE OU UE US GEO GZDO GL GE GEO GEO SO GE GO UE GED GRO UO GEO GEO GEO US GE GGOUE GSC UG GEO UO GEO OUO UGE UD GRO USO GEO UMS GES GDO GEO GEO UE GE UO GEO GEO UHO GEO ÁO GEO GRO Ue UM UG GR URS GO UD Gm US UE GO UD ZO UC UD GRO UA GE OUS GE UO GEO GE UE UE GO GEO GO GEO GE Ge GA UDOUED m OO UG GG USO OR OE S UG Oes 


ClassificationTree 
PredictorNames: ['SL' 'SW' 'PL' 'PW'] 
ResponseName: 'Y' 
CategoricalPredictors: [] 
ClassNames: ('setosa' 'versicolor' 'virginica'] 
ScoreTransform: 'none' 
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m om m m m om m E m E m A Gom E Om m Gm E Z Om E o A E E m E m A B m E E Om E Hb o AO UR Um UB b RS GR GÀ GE EL Gm» RO GO GRO Gm CRD Gm GRO GA CU GE GO 4S GA GÁS RAO G4 RO ÁO RAO G4 GA RÁ GA OR UR UD GRO GO GC GO OR GO ROGO GA R4 GO USOS OCCUR GRO RAO GO RAO GRBDO GEO GG" RAO GAS GR CUR G4 GRO GO ROOGRÁD OR RO GO RO UO GRO GÁ GO CR GAS RO CAO GO ORO OCA GO GAP OG UD GRO AO UD GR US GO OD GO AO GR UG GC GO OR RO ORO GR GR 


NumObservations: 150 


|Properties|, Methods| 一 一 一 一 一 一 单 击 该 处 两 超 链 接 


Decision tree for classification 

if PL<2.45 then node 2 elseif PL> = 2.45 then node 3 else setosa 
class = setosa 

if BW « 1. 75 then node 4 elseif PW> = 1.75 then node 5 else versicolor 
if PL« 4.95 then node 6 elseif PL> = 4.95then node 7 else versicolor 
class = virginica 

if PW « 1.65 then node 8 elseif PW> = 1.65 then node 9 else versicolor 
class = virginica 


class = versicolor 


i: 0 -1 OÓ) Ui A wù D Be 


class = virginica 

分 别 单 击 上 述 MATLAB 命令 行 窗 口中 的 Properties 和 Methods 超 链 接 , 在 窗口 中 
分 别 显 示 如 下 所 示 。 单 击 Properties 超 链 接 显 示 的 是 类 ClassificationTree 的 所 有 (可 理 
解 为 生成 的 决策 树 ) 属 性 ,是 指 通 过 fitctree 训练 得 到 的 树 的 所 有 属性 ,部 分 属性 值 可 在 
fitctree 图 数 调 用 时 进行 定义 ,如 上 述 程序 中 的 PredictorNames (描述 各 属性 的 名 称 ) 等 。 
另外 一 部 分 则 是 对 形成 的 树 的 具体 属性 描述 ,如 NumNodes (描述 树 的 结 点 数 ) 等 。 由 于 
各 属性 是 属于 训练 成 的 决策 树 , 因 此 当 需 要 观测 和 调用 属性 值 时 ,可 采用 t xxx 调 用 ， 
其 中 1 表示 训练 生成 的 树 的 名 称 ,XXX 表 示 属 性 名 称 。 
类 ClassificationTree 的 属性 : MEM 
: 





\ X 

RowsUsed 
W 
ModelParameters 


NumObservations 


PredictorNames 


HyperparameterOptimizationResults 
| din (此 处 省 略 ) 





单 击 Methods 超 链 接 显 示 的 是 类 ClassificationTree( 可 理解 为 生成 的 决策 树 ) 的 操 





类 ClassificationTree 的 方法 : 


compact cvloss margin prune resubMargin view 
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compareHoldout edge predict resubEdge resubPredict 0| 
crossval loss predictor Importance  resubLoss  surrogateAssociation | 


对 于 属性 和 方法 的 具体 含义 及 使 用 方法 ,可 通过 help XXX 查询 ,xxx 为 属性 或 方 
法 名 。 下 面 介绍 决策 树 的 前 枝 方法 (Prune) 和 观测 方法 (View) 的 基本 使 用 方法 。 
语法 如 下 : 






t2 = prune(tl, 'level',levelvalue) 


t2 = purne(tl, 'nodes', nodes) 






view(t2, 'Mode', 'graph') 

Herb 表示 原 决策 树 ,t2 表示 剪 枝 后 的 新 决策 树 ,，level' 表 示 按照 层 进行 剪 枝 ， 
levelvalue z&zn 89 fi 5 JEŽ, nodes zs TÈ BB 25 xa 99 d» nodes 表示 减 挥 该 结 点 后 的 所 有 
Et. viewCt2, 'Mode'. 'graph 0 RI VA UE 46 75 3X zn (2 决策 树 。 








>> t2 = prune(t, 'level',2); $ $484 d 98 — EZ HU WB s 
>> view(t2, 'Mode', 'graph') 


经 过 裁剪 后 的 决策 树 如 图 5.4 所 示 。 


Classification tree viewer 


文件 上 日。 ISMO 点 面 ID) Tree 窗口 (W) 帮助 (H) 
lick to display: identity w| Magnification: |100% v| Pruning level: oor | : 














W >= 1.75 


virginica 





图 5.4 高 尾 属 植物 裁 筋 后 决策 树 
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上 述 对 决策 树 的 剪 校 等 操作 后 ,就 形成 了 一 个 具有 使 用 价值 的 决策 树 , 在 
MATLAB 命令 行 窗口 中 输入 : 








>> predict(t2,[1 0.2 0.4 2]); % [1 0.2 0.4 2] 为 测试 样本 数据 ,为 向 量 或 矩阵 


运行 后 输出 结果 如 下 : 


ma 


EE 


表示 通过 决 案 树 分 类 后 ,属性 值 为 |L 1 0. 2 0.4 2j 的 高 尾 属 植物 为 setosa. 
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支持 问 量 机 





人 6.1 支持 向 量 机 算法 原理 


6.1.1 文 持 回 量 机 概述 


文 持 回 量 机 (Support Vector Machine,SVMI) 是 近年 来 受到 广泛 关注 的 一 类 机 机 学 
习 算 法 ,以 统计 和 学习 理论 (Statistical Learning Theory,SLT) 为 基础 ,由 Corinna Cortes 和 
Vapnik 等 于 1995 年 首先 提出 的 , 它 在 解决 小 样本 , 非 线 性 及 高 维 模式 识别 中 表现 出 许多 
特有 的 优势 ,并 能 够 推广 应 用 到 函数 拟 合 等 其 他 机 器 学 习 问 题 中 。 支 持 问 量 机 可 以 分 析 
数据 .识别 模式 、 分 类 和 回归 分 析 。 

支持 向 量 机 算法 在 解决 小 样本 模式 识别 中 具有 较 强 优势 ,这 里 的 小 样本 并 不 是 说 样 
本 的 绝对 数量 少 , 而 是 说 与 问题 的 复杂 度 相 比 ,SVM 要 求 的 样本 数 是 相对 比较 少 的 。 实 
际 上 ,对 大 部 分 分 类 回归 算法 来 说 ,更 多 的 样本 总 是 能 市 来 更 好 的 效果 。SVM 算法 擅长 
应 对 样本 数据 线性 不 可 分 的 情况 ,主要 通过 引用 核 图 数 技术 来 实现 。 

支持 向 量 机 将 向 量 映射 到 一 个 更 高 维 的 空间 中 ,在 这 个 空间 中 建立 一 个 最 大 间隔 的 
超 平面 风 。 在 分 开 数 据 的 超 平面 的 两 边 建 有 两 个 互相 平行 的 临界 超 平 面 , 建 立方 向 合适 
的 分 隔 超 平 面 将 使 两 个 与 之 平行 的 超 平面 间 的 距离 最 大 化 。 其 假定 为 ,平行 超 平面 间 的 
距离 或 差 跑 越 大 ,分 类 天 的 总 误差 越 小 。 





(D 机 器 学 习 过 程 中 的 数据 点 是 维 实 空间 中 的 点 。 希 望 能 够 把 这 些 点 通过 一 个 n 一 1 维 的 超 平 面 分 开 , 通 常 这 
被 称 为 线性 分 类 器 ,有 很 多 分 类 器 都 符合 这 个 要 求 。 但 是 还 希望 找到 分 类 最 佳 的 平面 ,即使 属于 两 个 不 同类 的 数据 点 
间隔 最 大 的 那个 面 ,该 面 也 称 为 最 大 间隔 超 平 面 。 
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所 以 ,支持 辣 量 机 主要 有 以 下 几 方 面 的 优点 。 

d) 算法 专门 针对 有 限 样 本 设计 ,其 目标 是 获得 现 有 信息 下 的 最 优 解 ,而 不 是 样本 趋 
于 无 穷 时 的 最 优 解 。 

(2) 算法 最 终 苇 化 为 求解 一 个 二 次 凹 规 划 问 题 ,因而 能 求 得 理论 上 的 全 局 最 优 解 , 解 
决 了 一 些 传统 方法 无 法 避免 的 局 部 极 值 问题 。 

(3) git 在 高 维特 征 空 间 中 构 
造 线 性 最 佳 通 近来 解决 原 空 间 中 的 非 线性 带 近 问题 。 -特殊 性 质保 证 了 学 习 机 器 具有 
恨 好 的 泛 化 能 力 ,同时 巧妙 地 解决 了 维 数 灾难 问题 ， eninin 
2e PE 5 TS ERTE RU, 


6.1.2 支持 回 量 机 算法 及 推导 


1. SVM 数学 模型 的 建立 


文 持 回 量 机 是 一 种 通用 机 带 学 习 算 法 ,是 统计 和 学习 理 论 的 一 种 实现 方法 ,其 能 够 较 好 
地 实现 结构 风险 最 小 化 思想 。 将 输入 问 量 上 映射 到 一 个 高 维 的 特征 空间 中 ,并 在 该 特征 空 
间 中 构造 最 优 分 类 面 ,能 够 避免 在 多 层 前 问 网 络 中 无 法 克服 的 一 些 缺 点 ,并 且 理 论证 明 
T: 当选 用 合适 的 映射 图 数 时 ,大 多 数 输入 空间 线性 不 可 分 的 问题 在 特征 空间 可 以 转化 
为 线性 可 分 问题 来 解决 但 是 ,在 低 维 输入 空间 加 高 维特 征 空 间 上 映射 过 程 中 ,由 于 空间 维 
数 急 速 增 长 ,这 使 得 在 大 多 数 情 况 下 难以 耳 接 在 特征 空间 和 耳 接 计算 最 佳 分 类 平面 。 文 持 
回 量 机 通过 定义 核 图 数 (Kernel Function) ,巧妙 地 利用 原 空 间 的 核 图 数 取 代 高 维特 征 空 
[8] "P ES AL GS SE BI k (m; m; ) 9G olr) oh fe Y ERKE., BOEN 38 xL dE 2X 
性 映射 把 样本 回 量 映射 到 高 维特 征 空间 s E tr E ux IR] rr. HEIC AE C s 3 Js IR] CS HJ 
像 具 有 线性 关系 ,上 骨 在 特征 空间 中 构造 线性 最 优 决 全 函数 ,如 图 6. 1 所 示 。 


O O 





村 征 空间 






特征 空间 
le © 


O 
- 
O Q 输入 空间 


图 6.1 输入 空间 与 高 维特 征 空间 之 间 的 映射 关系 
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文 持 回 量 机 具有 坚实 的 数学 理论 基础 ,是 专门 针对 小 样本 学 习 问 题 提 出 的 。 从 理论 
上 来 说 ,由 于 采用 了 二 次 规划 寻 优 ,因而 可 以 得 到 全 局 最 优 解 ,解决 了 在 神经 网 络 中 无 法 
避免 的 局 部 极 小 问题 。 由 于 采用 了 核 图 数 ,巧妙 地 解决 了 维 数 问题 ,使 得 算法 复杂 度 与 样 
本 维 数 无 关 ,非常 适合 于 处 理 非 线性 问题 。 另 外 ,支持 向 量 机 应 用 了 结构 风险 最 小 化 原 
则 ,因而 支持 向 量 机 具有 非常 好 的 推广 能 力 。 

给 定 训练 样本 集 DS C(xisyi)r (xy )，…(Cxrnyym) y;€ 0 — 14 1) ,分 类 学 习 最 
基本 的 想法 就 是 基于 训练 集 D 在 样本 空间 中 找到 一 个 划分 超 平面 ,将 不 同类 别 的 样本 分 
开 。 但 能 将 训练 样本 分 开 的 划分 超 平 面 可 能 有 很 多 ,如 图 6. 2 所 示 ,但 是 哪 一 个 才 是 最 优 
的 呢 , 应 该 选择 哪 一 个 呢 ? 

直观 上 看 ,应 该 去 找 位 于 两 类 训练 样本 “正中 间 ” ， 

的 划分 超 平面 , 即 图 6.2 中 最 中 间 较 粗 的 那个 ,因为 " 


该 划分 超 平面 对 训练 样本 局 部 扰动 处 理 得 最 好 。 例 $4, 


如 ,由 于 训练 集 的 局 限 性 或 噪声 的 因素 ,训练 集 外 的 pi F Am 
样本 可 能 比 图 6. 2 中 的 训练 样本 更 接近 两 个 类 的 分 | ” 0 LL 
割 界 , 这 将 使 许多 划分 超 平面 出 现 错误 ,而 中 间 的 超 |. Z7 1 
平面 受 影响 最 小 。 MN 





在 样本 空间 中 ,划分 超 平 面 可 通过 如 下 线性 方程 TELS 
w'x+b=0 (6.1) 图 6.2 多 个 划分 超 平面 将 两 类 训练 
式 中 ,一 (zlyrzg，… Twi) 为 法 问 量 ,决定 了 超 平面 FE AS AT 


的 方 回 ; b ZA DERE IW. X — URS Hio AC ,决定 了 超 平 面 
与 原点 之 加 的 跑 离 。 显 然 , 划 分 超 平 面 可 被 法 回 量 w 和 位 移 项 确定 ,下 面 将 其 记 为 
(w,5)。 样 本 空间 中 任意 点 x 到 超 平 面 (w,5) 的 距离 可 写 为 : 
四 | wx; 4- 5| 
|w |l 
AP., ||- | ARZ WR. BI, EF df Cw, 0 BERE UI ARE ZIS 1E Bü 27 28 EXT F Cx y) ED, 
£i y7 +1 MA w x; 十 5 二 0; zr y; — 1. WU w! x; 十 b 二 0。 
JJ T REER H h sc K [8] pa Foe F rf. E BÉ 9S H Ow «00 RR h Mri Ae F T6] «M. f A BUI 
于 进行 求解 。 由 于 超 平面 满足 式 (6.1), 因 此 必然 满足 : 
tw'x--tb—0 
此 时 ,必然 存在 5 使 临界 超 平 面 能 够 建立 等 式 方程 ,从 而 进行 方程 表示 : 
gw xY 十 到 二 1， ïy = 十 1 
tw'x+ Eb ——1, Myj——] 
此 时 ,将 Ew 重新 定义 为 w, 将 Co 重新 定义 为 5， 


(6. 2) 
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如 图 6.3 所 示 , 令 ， 
wy iy = 
(5.3) 
wix;d-bz—1. My; = 一 1 
距离 超 平面 最 近 的 这 几 个 训练 样本 点 ,也 就 是 位 于 临界 超 平面 上 的 点 使 式 (6.3) 的 等 
号 成 立 ,它们 被 称 为 “支持 向 量 ”(Support Vector) ,两 个 异类 支持 向 量 到 超 平面 的 距离 之 
和 为 : 
Y=- i (6.4) 
|w | 
S. Lt" x; bi- l 1 一 1,2,*** 94 
式 中 ,7 表示 “ 间 隅 ”; s. t. 表示 满足 某 种 条 件 ; m 表示 样本 数 ,y; (w^ x; Hb) 1 是 对 式 (6. 3) 
的 一 个 变形 ,同样 也 可 以 用 式 (6. 3) 表 示 。 


X2 n 2 
iwl 


w'x+b=+] > 
F " Kb 
vix b-0 
+ ”+ 临界 超 平面 XX 
十 


rd 
Pd 





V ^w!xtb--] 


a d Pd 





图 6.3 xh mE 9L II E 
僻 找 到 具有 “最 大 间 隅 ”的 划分 超 平面 ,也 就 是 要 找到 能 满足 式 (6.4) 中 约束 的 参数 w 
TI b ,使 得 7 最 大 , 则 仅 需 最 大 化 上 wl 7! , 这 等 价 于 最 小 化 上 wj ,所 以 得 到 
min 5 lw? (65.5) 


8. t. y; (w! x; bls £—1b2. 
这 是 支持 问 量 机 的 基本 型 。 希望 求解 式 (6. 5) 2E 18: 89] ee A [8] Bf 3a] 2 388 ^L- TÉ Br oer JW EJ 
BUM , 令 : 
f(x)=w xb (6. 6) 
式 中 ,mw 和 2 是 模型 参数 。 


2. 拉 格 明日 乘 子 法 
注意 到 式 (6.5) 本 身 是 一 个 凸 二 次 规划 问题 ,能 直接 用 现成 的 优化 计算 方法 求解 ,也 
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可 以 通过 如 下 的 拉 格 天 日 乘 子 法 进行 高 效 求解 。 拉 格 明 日 乘 子 法 (Lagrange Multiplier) 
和 KKT(C(Karush-Kuhn-Tucker) 条 件 是 求解 约束 优化 问题 的 重要 方法 ,在 有 等 式 约 束 时 
使 用 拉 格 明日 滋 子 法 ,在 有 不 等 约束 时 使 用 KKT ZR TE. WE HO 24 H PRAA h PR 
数 时 ,使 用 这 两 种 方法 才 保证 求 得 的 是 最 优 解 。 具 体 来 说 ,对 式 (6.5) 的 每 条 约束 添加 拉 
Fi BJ H RTF C 宇 a; 三 0, 其 中 C 为 惩 罗 系数 ,由 用 户 目 己 设 定 。 该 问题 的 拉 格 明日 图 数 可 
GN: 


L(w.5.a)— = lwl*-- 23a, (1 y: (Wx: +b) ) (6. 7) 
式 中 T'i = (ai slg a TT "ow 此 时 求 取 L(w.b.a ) 的 极 大 值 , 就 是 式 (6. 5 ) 的 极 小 值 。 NI 





求 取 极 值 , 令 工 (w,b,a ) 对 w 和 2 B5 Se 2g 2 n] 3: 
W = X ays; (6. 8) 
r—] 
() = 一 一 2 ny; (6. 9) 


将 式 (6.8) 和 式 (6.9) 带 人 式 (6.7) 中 ， 即 可 将 L (w.b.a ) 中 的 w 和 w。 消去 就 得 到 式 
(6.6) 极 值 的 男 一 种 表示 形式 ,也 就 得 到 了 其 对 偶 问 题 ( 用 极 大 值 表示 极 小 值 ,或 者 用 极 小 
值 表示 极 大 值 ) 的 表达 形式 : 
max Sya, 一 和 yiyjXi Is, (6. 10) 
S. t. DM = 0, t L,2,.-,.m 
解 出 a 后 , 求 出 w 和 6 即 可 得 到 模型 
f(x) Ww 十 在 二 Wi T6 (6.11) 


从 对 偶 问 题 式 (6. 10) 中 解 得 的 w 是 拉 格 明日 的 乘 子 , 它 与 训练 样本 相对 应 。 式 (6.5) 中 
的 约束 ,对 于 求解 w 的 过 程 中 同样 需要 满足 ,从 而 求解 过 程 震 要 满足 KKT 条 件 为 : 
ü; 0 
yif (x;)—120 
o; (yif (xi) 1)— 0 
对 于 任意 训练 样本 (x; «y; ) ,总 有 0; —0 或 者 yif (x;)= 二 1。 夺 a; 二 0, 则 该 样本 将 不 会 
在 式 (6. 11) 的 求 和 中 出 现 , 也 不 会 对 f(x) 有 任何 的 影响 ; 在 w 二 0, 则 必须 yif (xi) —1. 
对 应 的 样本 是 位 于 临界 超 平面 上 的 点 ,此 处 的 点 的 属性 值 x; 也 就 被 称 为 文 持 癌 量 。 可 以 
看 出 训练 时 , 仅 有 位 于 临界 超 平 面 的 点 对 训练 的 模型 有 影 啊 。 
下 面 详细 讲解 如 何 求解 e ,从 上 一 段 的 求解 可 知 a 的 形式 是 一 个 包含 大 量 0 HHE, 
问 量 中 同时 存在 部 分 w 不 为 0, 这 些 w 对 应 的 样本 则 是 位 于 临界 超 平面 上 。 这 些 点 带 人 式 
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yi (wx; tb) —1 中 等 号 必然 成 立 , 但 是 不 能 作为 求解 w I b 的 充分 必要 条 件 。 
3. SMO 求解 拉 格 明日 乘 子 


1998 年 ,由 Platt 提出 的 序列 最 小 最 优化 算法 (Sequential Minimal Optimization. 
SMO) 可 以 高 效 地 解决 上 述 求解 e 的 问题 , 它 将 原本 求解 m 个 参数 的 二 次 规划 问题 分 解 
为 很 多 个 子 二 次 规划 分 别 进行 求解 ,每 个 问题 只 需要 求解 两 个 参数 即 可 ,节省 了 计算 时 
间 , 且 降低 了 内 存 需 求 。 下 面 对 其 进行 详细 的 介绍 。 

依据 式 (6.9) 可 知 , 当 假设 某 一 个 a; 未知, 其 他 a; 为 固定 值 时 ,可 通过 式 (6.9) 和 耳 接 计 
算出 a;。 此 时 ,假设 选择 两 个 a 和 a 参数 , 且 其 他 a; 固定 ,ay. 十 sys 一 Con。 其 中 ,Con 
为 常数 ,0 二 a ,5b 二 mm。 在 编写 程序 时 ,上 述 表 述 的 离 意 是 指 需 要 对 a 进行 初始 值 进行 设置 ， 
晶 设 置 的 初 妈 值 满足 约束 要 求 ,之 后 ,依据 a 初始 值 计 算出 5 的 初始 值 ,然后 青 根据 SMO 
方法 进行 迭代 求解 。 

为 了 更 好 地 理解 ,假设 选择 a 和 as 作为 可 变 的 参数 ,也 就 是 要 对 a, 和 a; 在 原 有 值 
的 基础 上 进行 一 次 迭代 ,从 而 进一步 优化 ,类 似 于 三 维 曲 面 上 求 极 值 点 (两 个 值 为 变量 ,其 
他 值 为 固定 值 , 求 目标 图 数 的 极 值 )。 其 他 参数 asasta, 为 固定 参数 ,可 将 目标 子 数 
式 (6. 10) 化 简 为 只 包含 a I os 的 二 元 函数 ,化 简 后 如 下 : 


max(ọ(a saz) ) 一 maxl a d Ay — judi EE nal — yi y2Riza1a2 一 


yı Vti 一 yo Us Qs -4) (6.12) 


式 中 ， ih — P ay; „1 = | ki = X; X; »i Lesy J = DE T d il Q1 V1 -F a ya T à, 


将 ayi Pm =A ft 8 7g a1 = (A~a ys )y ,并 带 人 式 (6.12) 中 , 则 得 到 一 个 仅 关 于 
o; 的 一 元 函数 ,由 于 在 求 极 值 过 程 中 ,常数 项 不 影响 求解 ,因此 下 式 中 将 省 略 A 项, 得到: 


max(P(as ) )=max| a — a2 ys) yi Taz: 一 hu (A — as ys )* 一 


l , 
5 keza? — yzAls (å — Q5 ys» )as — ti (A — üs 9g )— 


1 (B. 13) 
AG 13) 为 仅 关 于 a; 的 图 数 , 对 上 式 求 导 并 令 其 为 0 得 : 


d 
AACD] =] — (Ru + kzz — 2kw )as T RilAys 一 RizAys 一 


yl1ys F Wyz — Uiys = 0 (6.14) 
由 式 (6. 13) 计 算 求 得 os 的 解 , 带 回 式 a = (A—a:y:) yi 可 得 a 的 解 , 分 别 标记 为 
Anew! 和 anew ,可 假设 优化 前 的 解 为 wua 和 aoa ,由 于 满足 约束 等 式 (6.9), 因 此 ， 
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A old1 Y1 T Qos Ye zu 2 ay; =< Q newl Y1 d Husa ds E A (6. 15) 


依据 原 有 的 a 和 2 的 值 ,可 计算 出 此 时 样本 x; XE WB TRUM f (xi) «y: 表示 样本 x; 
的 在 实 值 ,定义 E; 表示 预测 值 与 真实 值 之 间 的 差 值 : 


E; = f (xi )— yi (6. 16) 
由 于 v; = Drayjks si — 12 BA. 
j-3 

2B. 
vi = f(x1)— > a;y;ki; — o (6.17) 

j=l 

d 
vs = f(X:)— Di —b (6. 18) 

j=1 


将 式 (6.15)、 式 (6.17)、 式 (6.18) 带 人 和信 式 (6.14) 中 ,由 于 此 时 asewz 未 考虑 约束 ,因此 标 
记 为 Q new, un2 LAIT 
(ki + kzz — Zhi Janew, un? E (ki + kaz — Zk12 ) &oia2 + 


yz [y2 — yı f£ (x1)— f (x2) ] (6. 19) 
将 式 (6. 160 0 A SX C6. 19) rP ,得 : 
Ünew,un2 一 Qold? F ys (Ei — Ez) (6. 20) 
7 


式 中 ;= ki Fk 一 2Ri2 o 
上 述 求解 未 考虑 的 约束 条 件 包 括 : 
| 0 =a Q1 Q2 = C 
| ayı Fazy: = A 
在 二 维 平面 上 和 卫 观 地 表达 上 述 两 个 约束 条 件 ,如 图 6.4 所 示 , 其 中 可 根据 yiye 和 
A 求 出 。 


aC  (C*tkC) (&-C, C) Qy-C 





ET 0<k<C C<k<2C 
g-0 (0, k) 
ct] = 
(0. 朋 | QI (C, k-C) 
(-k, 0) 0-0 0:0 (k, 0) 
gutes y= + 0 =k 


图 6. 4 上 & 值 求解 参考 示意 图 
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最 优 解 必 须 在 方 框 内 , 且 在 直线 上 取得 ,可 定义 Lasso mH. 
当 yı 7 ya 时 .L-max (0yaold — aoa); H —min(CC,C-r aaa; — aoa ) 3 
* Vi — 5 E L— max = * Ü ola? uci —C0; H —min(CC agg T Qoldi hs 


H, lcs cus HI 
Qnewl = (Onew,u2 L X Gne OH 
L. LL E. KK 
依据 式 (6. 15 ) 可 得 wew 的 求解 公式 : 
Ünewl 一 Coldl 4 ui Ys ( aol ldd? ^ Qnew? ) 


对 式 (6.13) 求 二 阶 导数 ,依据 二 阶 导 数值 ,可 知 函 数 的 极 大 值 状况 。 式 (6.13) 的 二 阶 
导数 恰好 为 N= kn Hke 一 2k12。 

当 wy 二 0 时 ,目标 了 消 数 没有 极 小 值 , 极 值 在 定义 域 的 边界 处 取得 。 

当 g—0 时 ,目标 函数 为 单调 函数 , 极 值 在 定义 域 的 边界 处 取得 。 


4. SHA b 的 计算 


每 完成 两 个 变量 的 优化 后 ,对 5 值 进行 一 次 更 新 ,因为 5 的 值 同 样 关系 到 f(x) 的 计 
算 , 从 而 关系 到 E; 的 计算 。 

如 果 0 二 asom C.H KKT 条 件 可 知 , 此 时 必须 满足 yi (wixi 十 6) 二 1, 将 其 两 边 同 时 
FE VI yı 变形 为 : 


n 


2 aya 十 = M1 


i=] 


从 而 得 到 : 


; P - a». Ra — dus Ni E — Anew? 221 (6. 21) 
üt. 16),n[fj 


rt 


Mo X aya —— E T aga Yik T aoldz y2 R21 T baa (6. 22) 
将 式 (6. 22) m ALS C6. 21) 中 ,得 : 
Duel 一 一 E— yı Řıı Loud ~ Qoldi y- Ya R21 (anew? — Qold? 十 Doia (6. 23) 
同 理 + 如 果 i NET aTi , jii 
1 =p E, m M1 kis ( Qnew] — Qoldi )— Ya Roo (Anew? — Qold? YF Dola (6. 24) 


由 于 上 述 的 推导 假设 0 anm C M Oan CC ERARA RERS A 181 2 的 
FEZ TE Ifi AE F LE 6E SR H HJ brew IOS BIA HF TÉ HY brew ;三 者 满嘴 bso = Onew! = Onew? c 

如 果 同 时 不 满足 0< anewi C 0 anew C , WM 3 FE bnew bnew HI ENE 29 bnew H3 CIEL 
A 7g JF A AE e DG H3 bnew e E i I8] F Onewi 或 者 Du > 2S TA F Æ D IB] [ bnew s Onew | 求解 最 优 的 
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bnew CIA ER bnew WI Be AS TEE DC [B] VIO ,此 时 需要 采用 一 定 的 方式 通 近 最 优 的 ps, 取 中 值 的 
做 法 则 类 似 于 数值 最 优化 方法 中 的 二 分 法 优化 方法 。 

以 上 就 完成 了 对 wa .as 和 2 的 一 次 更 新 ,循环 多 次 得 到 取得 极 值 点 时 的 ai .aa 和 5, 然 
后 骨 选 择 男 外 两 个 a; 参数 ,进行 w 和 的 更 新 ,直到 所 有 w 和 6 更 新 至 满足 终止 条 件 , 如 
更 新 次 数 达 到 设 定 值 ,推导 的 模型 满足 一 定 的 误差 率 等 。 通 过 已 经 得 到 的 @ ,利用 式 (6. 8) 
可 和 卫 接 得 到 w, 即 得 到 了 式 (6.6) 的 SVM 算法 模型 。 


6.1.3 Z FH EHLE 


在 前 面 的 讨论 中 ,假设 训练 样本 是 线性 可 分 的 , 即 存 在 一 个 划分 超 平 面 能 将 训练 样本 
正确 分 类 。 然 而 在 现实 任务 中 ,原始 样本 空间 中 也 许 并 不 存在 一 个 能 正确 划分 两 类 样本 
的 超 平 面 。 例 如 ,图 6.5 中 的 “ 异 或 ”问题 就 不 是 线性 可 分 的 。 

对 这 样 的 问题 ,可 将 样本 从 原始 空间 映射 到 一 个 更 高 维 的 特征 空间 中 ,使 得 样本 在 这 
个 特征 空间 内 线性 可 分 。 例 如 ,在 图 6.5 中 , 符 将 原始 的 二 维 空 间 映 射 到 一 个 合适 的 三 维 
空间 中 ,就 能 找到 一 个 合适 的 划分 超 平面 。 





图 6.5 非 线 性 映射 


A p(x) 表 示 将 x 映射 后 的 特征 癌 量 , 于 是 在 特征 空间 中 划分 超 平面 了 折 对 应 的 模型 可 


f(x)=w p(x)+6 (6. 25) 
式 中 ,w 和 2 是 模型 参数 。 有 如 下 关系 式 : 
i (6. 26) 
Wb 7 


s.t. ;(w' g(x)) Fol = 1,2,-.,m 
H ROK für IB BE I E IE a I8] Ja 3) A R s ED] EXT 18] 38 8) HEUS PR CAS : 


max ja, — 5 X ay DCxXi) olx) (6. AT) 
" i=] ! 4-1 j=1 


式 中 ,wa 为 每 条 约束 添加 的 拉 格 县 日 来 子 ,g= (aa yd as 全 0。 由 于 求解 


&"'" 94, 
" * 
x mn 
z 1 a 
- LI 
bd * 
B = 
^" " 
a 
Eaa" 
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p(xi) p(xj) 是 困难 的 ,因此 设想 这 样 的 一 个 孙 数 : 
K(xiox;)= ox)! gx) (6. 28) 

所 以 不 用 计算 高 维特 征 空 间 中 的 内 积 , 只 需 通过 函数 天 ("…) 计 算 结 果 。 这 里 的 函数 
KC, oO DE ARO, 

FAE A H H RR. 

(1) 线性 核 图 数 : K (xx) 5x Xo 

(2) £»n3 E ES: 天 (xi ) 王 LO ) 十 1]"。 

(3) r EE PRI ŽI : Ee 

(4) Sigmoid TZ KAR: K (x; x; ) — tanh [| gCxi x) +c]. 

(5) 径 阿 基 核 图 数 : K(xi»x;)— exp(—Y» ll xi—x; l^ )»Y—0. 

A gg Bey 为 核 参数 ,虽然 Sigmoid 核 不 是 正定 核 ,但 在 实际 应 用 中 发 现 它 很 有 
效 。 高 斯 核 的 汉化 性 能 好 ,因此 是 目前 使 用 最 广泛 的 核 图 数 。 但 随 厦 科研 工作 的 不 断 次 
入 及 应 用 性 研究 的 推广 ,针对 不 同 的 问题 , 核 旺 数 的 选择 也 越 来 越 广泛 。 


人 6.2 改进 的 支持 向 量 机 算法 


文 持 回 量 机 (SVM) 是 数据 分 类 的 哩 大 工具 ,传统 的 标准 SVM 需要 求解 一 个 二 次 规 
划 问 题 ,往往 速度 很 慢 和 存在 维 数 灾难 ,计算 复杂 度 又 融 ,为 保证 一 定 的 学 习 精 度 和 速度 ， 
本 文 介绍 在 处 理 不 等 式 约 束 时 用 等 式 约束 代 蔡 求解 的 最 小 二 乘 文 持 问 量 机 算法 (Least 
Square Support Vector Machine. LSSVMD, 

Bx F x FIBI S Hl LSSVM) Æ Suykens 和 Vandewalb 在 1999 年 提出 的 一 种 文 
持 向 量 机 变形 算法 。 最 小 二 乘 算法 在 数学 中 通常 代表 分 量 差 的 平方 和 ,所 以 这 两 位 学 者 
按照 最 小 二 来 的 公式 形式 将 文 持 回 量 机 的 优化 公式 进行 变形 ,以 期 望 得 到 更 好 的 结 来 ,而 
实验 中 恰恰 证 明了 这 一 点 。 

自 先 建立 如 下 分 类 问题 求解 方程 ; 


minF (w,b,e)= y ww 572 (6. 29) 
Vert : i=] 


式 中 ,e 二 [ei sest en AMENE; y 表示 权重 ,人 为 设 定 参 数 , 用 于 平衡 寻找 最 优 超 平 
面 时 ,偏差 量 的 影响 大 小 , 式 (6. 29) 满 足 等 价 约束 条 件 : 
yx[w'e(x2-db]—1—e. i-—1.2.-.m (6. 30) 
根据 式 (6. 30) 可 知 e; 的 物理 含义 , 当 样 本 x; 位 于 两 个 临界 超 平 面 外 时 ,e 为 负数 , 表 
示 的 物理 含义 为 样本 x; 到 最 近 的 临界 超 平面 距离 的 负数 ; 当 样 本 x; 位 于 两 个 临界 超 平 
面 内 时 ,e 为 正 数 ,表示 的 物理 含义 为 样本 x; 到 最 近 的 临界 超 平面 距离 。 


定义 拉 格 明日 图 数 ,求解 该 图 数 的 最 大 值 条 件 , 即 为 式 (6.29) 的 极 小 值 条 件 , 拉 格 明 


T 








L(w.b.e.a )— F(w.b.e)— > a Ly; DwT e(xi)29-6]— 1 - ei] (6.31) 
=] 
aL — NE: | 
dw = —1 = 2,209 (ri) 
aL T 
3b Q 2n», Q 
à ] 
I = 0=> q; = Yeis» 1 = liat". 
Je; 
JL 一 ()1— T. | E E decim "T E 
TJ — 0 "y; [w p(x; tb)—lte]=0, E — Las ew sn (6. 32) 
根据 式 (6. 32) 转 换 为 如 下 线性 方程 : 
10 0 —Z [w] [O0 
0 0 0 —Y'||b 0 " 
= (6.33) 
0 O0 yp —I e 0 
Z Y I 0 a | I 


X'P.Z-[e(x)? yi spx) yy p(Xn) Ym]; Y= [yi sys s» yn; I=[1,*…,1]; e= 
[eise2 55654; a —| 0502 sas | 。 同 时 ,也 可 由 如 下 形式 的 方程 解 出 : 


0 一 了 | 0 
Y ZZ' +y Lila d 


由 上 述 过 程 可 以 发 现 , 最 小 二 乘 支 持 向 量 机 将 支持 向 量 机 中 的 不 等 式 约束 转换 为 等 
式 约 束 , 其 训练 过 程 也 由 二 次 规划 为 题 求解 转换 为 线性 方程 组 的 求解 ,这 种 转换 简化 了 计 
算 的 复杂 性 。 但 该 算法 的 训练 数据 都 成 为 文 持 回 量 并 且 对 于 大 型 分 类 问题 ,该 算法 的 速 
度 过 于 缓慢 。 另 外 ,值得 注意 的 是 ,本 节 介 绍 的 最 小 二 乘 文 持 回 量 机 应 用 的 核 困 数 均 为 径 
[H] 3& Ez PR X CRBEO M , 


("6.3 支持 向 量 机 算法 的 MATLAB 实践 


在 MATLAB 中 ,SVM 算法 进行 分 类 的 最 基本 图 数 为 SVMStruct = svmtrain 
(Training. Group) ,其 中 ,Training Xeon C AERA BJ TE AK AB VE; Group 表示 已 知 标签 样本 
的 标签 。 通 过 调用 svmtrain 可 训练 得 到 一 个 SVM 分 类 模型 。 之 后 ,通过 调用 testlable— 
svmclassify(SVMStruct,testdata) 可 实现 对 测试 数据 的 分 类 。 其 中 ,SVMStruct 为 上 述 
已 训练 好 的 SVM 模型 ;testdata 为 每 分 类 的 测试 数据 ; testdata 为 每 分 类 测试 数据 的 预 
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测 标签 。 

55 Jy .SVMStruct— svmtrainC Training. Group. Name, Value) 为 SVM 算法 的 高 级 调 
用 函数 ,其 中 ,Name 为 可 选 参数 的 名 称 ,Value 为 可 选 参数 的 参数 取 值 ,在 未 对 可 选 参数 
赋值 时 ,其 取 值 为 默认 值 。 其 中 ,包含 训练 模型 的 参数 的 设置 训练 模型 时 采用 的 哪 种 形 
式 核 的 设置 等 ,具体 读者 可 在 MATLAB 的 命令 行 窗口 中 输入 : help svmtrain, 然 后 回 车 ， 
即 可 详细 查看 svmtrain 图 数 的 使 用 方法 ,以 及 各 参数 意义 。 下 面 利 用 svmtrain 和 
svmclassify 编程 进行 SVM 算法 的 分 类 实现 (SVM_Mat. m 文件 ) ,其 运行 结果 如 图 6. 6 所 示 。 


% MATLAB 自 带 SVM 算法 图 数 svmtrain 实现 ,并 依 徘 svmclassify 建立 SVM 模型 对 测试 数据 进 











行 分 类 。 
Gs 
: clear; 
close all; 
) traindata = [0, 1; -1,0;2,2;3,3; -2, - 1; - 4.5, -4;2, -1;-1, -3]; 名 生成 样本 的 属性 数据 
bhes LL L 1,1],1, ^1, T; 和 样本 标签 
| testdata - [5,2;3,1; - 4, - 3]; % 测试 数据 的 属性 数据 
svm struct = svmtrain(traindata, lable, 'Showplot', true); s& 训练 SVM 模型 
? testlable = svmclassify(svm struct, testdata, 'Showplot', true); 上 依据 测试 样本 对 模型 进行 测试 ， 
hold on; 
| plot(testdata(:,1),testdata(:,2), 'ro', 'HMarkerSize',12); 
hold off 


程序 中 ,将 可 选 参数 'Showplot' 设 置 为 true, 此 时 将 会 根据 一 定 的 规则 对 数据 进行 绘 
制 ,如 图 6.6 所 示 , 其 中 ,标记 出 训练 梓 本 数据 、 测 试 数 据 、SVM 超 平 面 、 文 持 问 量 等 。 
«| Figure 1 
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图 6.6 SVM 算法 分 类 
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简单 地 说 ,分 类 就 是 根据 数据 的 不 同 特征 将 其 划分 为 不 同 的 类 别 。 在 数据 挖掘 中 ,一 
般 的 分 类 算法 有 很 多 种 ,如 KNN 分 类 算法 、. 贝 叶 斯 分 类 算法 、 神 经 网 络 分 类 法 .决策 树 算 
法 等 。 在 实际 应 用 中 ,通过 对 分 类 算法 的 比较 发 现 , 贝 叶 斯 分 类 算法 有 着 许多 其 他 算法 部 
不 具备 的 优点 ,在 很 多 情况 下 , 它 的 分 类 效果 可 以 与 决策 树 算 法 和 神经 网 络 算法 相 媲 美 。 
因此 ,许多 学 者 都 热衷 于 研究 该 算法 。 

贝 叶 斯 分 类 算法 是 统计 学 分 类 方法 ,是 建立 在 经 典 的 贝 叶 斯 概率 理论 基础 之 上 的 分 
类 模型 ,朴素 贝 叶 斯 分 类 算法 是 贝 叶 斯 分 类 算法 中 的 一 种 。 本 章 主 要 介绍 的 是 贝 叶 斯 基 
本 理论 .朴素 贝 叶 斯 分 类 模型 及 朴素 贝 叶 斯 分 类 模型 的 改进 。 


e 7.1 NHH EH 


贝 叶 斯 分 类 算法 是 一 类 分 类 算法 的 总 称 ,这 类 算法 均 以 贝 叶 斯 定理 为 基础 。 朴 素 贝 
叶 斯 分 类 算法 作为 贝 叶 斯 分 类 算法 中 的 一 种 算法 ,自然 也 以 贝 叶 斯 定理 为 基础 。 因 此 ,在 
讲解 朴素 贝 叶 斯 分 类 算法 之 前 ,首先 简单 介绍 一 下 贝 叶 斯 分 类 算法 的 基础 一 一 贝 叶 斯 
EH, 

贝 叶 斯 定理 (Bayes Theorem) 由 英国 数学 家 贝 叶 斯 (Thomas Bayes, 1702—1761 年 ) 
提出 ,用 来 描述 两 个 条 件 概率 之 间 的 关系 ,是 概率 论 中 的 一 个 结果 。 

通常 情况 下 ,事件 A 在 事件 B( 发 生 ) 的 条 件 下 的 概率 ,与 事件 B 在 事件 A 的 条 件 下 
的 概率 是 不 一 样 的 ; 然而 ,这 二 者 是 有 确定 关系 的 , 贝 叶 斯 定理 就 是 这 种 关系 的 陈述 。 在 
这 里 不 加 证 明 地 下 接 给 出 贝 叶 斯 定理 : 


P(A | B)— Mas ae (7.1) 





EAE 
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式 中 ,P(A) 是 A 的 抑 验 概率 或 边 绿 概率 ,之 所 以 称 为 “ 先 验 "是 因为 它 不 考虑 任何 吾 方 面 
WAK; P(A1B) 是 已 知 BRERA 发 生 的 条 件 概 率 , 由 于 取 自 B 的 取 值 而 被 称 为 A 的 
后 验 概率 ; P(BIA) 是 已 知 A RER B 发 生 的 条 件 概 率 , 由 于 取 自 A 的 取 值 而 被 称 为 B 
的 后 验 概率 ; P(B) 是 B 的 先 验 概率 或 边 绿 概率 ,也 被 称 为 标准 化 常量 (Normalized 


Constant)! ^M , 


FRN np E 42S $E 1E(Naive Bayes Classifier, NBC) Æ D np Hp 4p 2S px 70 rp — fb f; fn] 
E. , oc CH H E SE ba (88 Hd "P AR JE] B 4r 28 9 1E: . HE BE a EL 5 fi £5 928 DEPTH AR 
美 ,甚至 在 某 些 场合 优 于 其 他 分 类 模型 。 在 对 大 型 数据 库 的 分 类 方面 ,朴素 贝 叶 斯 分 类 算 
法 具有 分 类 准确 率 较 高 并 且 运 算 速度 快 的 特点 。 

朴 系 贝 叶 斯 分 类 算法 是 一 种 十 分 简单 的 分 类 算法 ,算法 的 基本 思想 是 : 对 于 给 出 的 
竺 分 类 项 ,求解 在 此 项 出 现 的 条 件 下 各 个 类 别 出 现 的 概率 ,哪个 最 大 就 认为 此 竺 分 类 项 属 
于 哪个 类 别 。 

朴 率 贝 叶 斯 分 类 模型 的 结构 是 一 种 网 络 形式 ,其 模型 如 图 7.1 所 示 。 其 中 A, 
A» ,……,4, 是 实例 的 属性 变量 ,C 是 取 m 个 值 的 类 变量 。 

朴 聂 贝 叶 斯 分 类 模型 包含 了 一 个 属性 独立 性 
的 假设 , 它 假 设 所 有 的 属性 都 条 件 独 立 于 类 变量 
C, 即 每 一 个 属性 都 以 类 变量 作为 唯一 的 父 结 点 。 
尽管 这 一 假设 在 一 定 程度 上 限制 了 朴素 贝 叶 斯 分 
类 模型 的 适用 范围 ,但 在 实际 应 用 中 ,大 大 降低 了 
贝 叶 斯 网 络 构建 的 复杂 性 。 

朴 对 贝 叶 斯 分 类 模型 的 分 类 过 程 如 下 。 

(1) 把 每 个 数据 样本 都 用 n ERIE E X — (aiias ,av) 来 表示 ,分 别 摘 述 对 n A 
条 件 属性 {Ai As ,…,A,}) 的 个 度量 。 同 时 假设 类 变量 C= {C , Cst, Cn} 。 

(2) 给 定 一 个 未 知 的 数据 样本 X( 即 没有 类 标签 ), 朴 又 贝 叶 斯 分 类 模型 会 将 未 知 的 
样本 X 分 配给 类 C; SHN: 

PiL | PC DX)S bci 3» (7. 2) 

这 样 dE. X 0H y 28 I C. B ERE LE 18 7g F'oKR E P (C;IXX) 最 大 值 的 过 程 。 其 中 使 
P (C; | X) f& K I] 28 C; 称 为 最 大 后 验 假 设 。 

(3) 根据 贝 叶 斯 定理 得 ， 


P(C; | X)= 





图 7.1 xD nr Er AESEIE ARA 


P(X | C.)P(C;) 


P(X) (7. 3) 
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由 于 P(X) 对 于 所 有 的 类 为 第 数 , 称 为 证 据 因 子 , 用 于 使 所 有 类 的 先 ! 
因此 P(C;| 半 ) 取 最 大 值 只 需要 满足 P(XIC;)P(C;) 达 到 最 大 即 可 。 

如 果 类 的 先 验 概率 P(C;),(i 二 1,2,…,n) 未 知 , 则 通常 假设 这 些 类 是 等 概率 的 , 即 
P(C)=P(G)="…=P(C,)=1/m; 这 时 最 大 化 P(C; | 入) 等 价 于 最 大 化 P(RIC;)。 叉 
或 者 ,类 的 先 验 概率 还 可 以 用 PCG) m s/s ETE TE. RB s; 是 类 C; 的 训练 样本 数 ,s 是 训 

(4) 由 于 朴素 贝 叶 斯 分 类 算法 包含 条 件 属 性 相互 独立 的 假设 ,计算 P(XIC;) 的 过 程 
可 以 表示 为 : 





含 概率 之 和 为 1， 


PiX | C= [| Pts; | CO (7. 4) 
k=1 


概率 PCa | Ci), PCa: |1C;),…,P(a,|C;) 可 以 由 训练 样本 估计 求 出 。 

(D 如 果 A, 是 离散 属性 , 则 PCOas1C;)==si/s;, 其 中 5; 是 在 属性 A 上 具有 值 ax 的 类 
Ci 的 训练 样本 数 , 而 s; 是 C; 中 的 训练 样本 数 。 

(2) WR A, 是 连续 值 属性 , 则 通 委 假设 该 属性 服从 融 斯 分 布 。 因 而 ， 


P (a, | C; ) = g(a: | HC, »Oc. ) 一 -人 2o | (T. 5) 


2 TO C. 





式 中 ,C; 为 给 定 类 的 训练 样本 属性 A HO CS C ,yc soc ) 为 属性 A, 高 斯 密度 函数 ， 
pc, ,cc 分 别 为 平均 值 和 标准 差 。 

(5) XL ok A RE X AE 35, X 838 C; 3 P Ca, | CDD) P (C;), 1 B. 4X 
P(X|C;)P (C;) - P(XIC; )P (C; ) ISi j Sm, jAi WE. TEAS XJ T2839 C. $t. 2) 28 
结束 。 

根据 上 述 过 程 , 可 以 得 出 朴素 贝 叶 斯 分 类 模型 的 数学 表述 为 : 


Cec = arg maxP (C) [ E PG /C)) (7. 6) 
GEC 


Th2R Ul RTRA AA F 

(1) FAJE XX fn] ER. . Prw RAATS P REE . SAU ZEE en HeTESR. 

(2) 算法 实施 的 时 间 和 空间 开销 小 , 即 运用 该 模型 分 类 时 所 需要 的 时 间 复 杂 度 和 空 
间 复 杂 度 较 小 。 

(3) 算法 性 能 稳定 ,模型 的 健壮 性 比较 好 ,无论 是 何 种 类 型 的 数据 ,都 可 以 利用 朴素 
贝 叶 斯 分 类 算法 进行 处 理 , 而 且 分 类 预测 效果 在 大 多 数 情 况 下 也 比较 精确 。 

朴 聂 贝 叶 斯 分 类 算法 的 缺点 如 下 。 

(1) 算法 假设 属性 之 间 部 是 条 件 独 立 的 ,然而 在 社会 活动 中 ,数据 集中 的 变量 之 间 往 
往 都 存在 较 强 的 相关 性 ,忽视 这 种 性 质 会 对 分 类 结果 产生 很 大 影响 。 

(2) 算法 将 各 特征 属性 对 于 分 类 决 各 的 影 啊 程 度 都 看 作 是 相同 的 ,这 不 符合 实际 运 
用 的 需求 ,在 实际 应 用 中 ,各 属性 变量 对 于 决策 变量 的 影响 往往 是 存在 差异 的 。 
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(3) 算法 在 使 用 中 通常 要 将 定 类 数据 以 上 测量 级 的 数据 离散 化 ,这 样 很 可 能 会 造成 
数据 中 有 用 信息 的 损失 ,对 分 类 效果 产生 影响 。 


777.3 朴素 贝 叶 斯 实例 分 析 


本 市 通过 根据 导 高 .体重 、 丢 尺寸 判断 一 个 人 是 男性 还 是 女性 的 实例 ,进行 具体 化 说 
明 杆 系 贝 叶 斯 异 法 的 计算 过 程 。 样 本 数据 如 表 7.1 所 示 。 


表 7.1 男性 与 女性 样本 数据 





假设 训练 集 的 样本 特征 满足 高 斯 分 布 , 则 得 到 表 7. 2 数据 。 
表 7.2 特征 值 高 斯 分 布 

性 别 “| 均值 (身高 ) 均值 ( 脚 尺寸 ) | 方差 ( 脚 尺 寸 ) 

k 50 

由 于 样本 中 男女 的 数量 是 一 样 的 ,因此 可 假设 两 类 别 是 等 概率 的 ,也 就 是 P (B) 
P(X)-—0.5, HEB] ,给 出 一 个 测试 样本 ,数据 如 表 7. 3 所 示 , 求 取 该 样本 的 分 类 是 男性 还 
是 女性 。 

表 7.3 测试 样本 


"- BE 
! 250 


对 于 上 述 的 数据 可 通过 计算 两 类 的 后 验 概 率 进 行 判 断 , 哪 一 类 的 后 验 概 率 大 , 则 属于 
哪 一 类。 男性 和 女性 的 后 验 概 率 分 别 可 通过 下 式 进 行 计 算 : 


P i 
RT x 
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PP( 男 )P( 身 高 | 男 )P( 体 重 | 男 )P( 脚 尺寸 | 男 ) 


evidence 


Posterior ( £j ) = 


P(X)P(5im|*X)P(RSEIX)POBJVSE | 30 


Posterior ( 女 ) = 





evidence 
evidence 表示 证 据 因 子 , 用 来 使 各 类 的 后 验 概率 之 和 为 1。 在 本 实例 中 
evidence =P (5)P (4 | 男 )P( 体 重 | 男 )P( 脚 尺寸 | 男 ) 十 
P(X)P(Ei | 女 )P( 体 重 | 女 )P( 脚 尺寸 | 20 
根据 表 7. 2 的 高 斯 分 布 均值 与 方差 ,计算 式 (7.7) 和 式 (7. 8) 中 各 参数 ，; 





E 2s 《168 一 中 
已 (身高 | 男 )= -e(7 77) ~ 0. 0136 
^/ TUO 


式 中 ,ac 一 28.9167,p 王 173.25。 注 意 , 这 里 的 值 大 于 1 是 允许 的 ,因为 这 里 表示 的 是 概率 
密度 ,而 不 是 概率 。 同 理 可 得 到 : 

P( 体 重 | 8)— 0.0022 

P( 脚 尺寸 | 5 )= 0.0094 

P(X)P(E S | 去 ) 一 0.0154 

P( 枉 重 | x)—0.0211 

P{ 股 尺寸 | € )-— 0.0079 

从 而 得 到 PHBOPCERISOPCK3XISOPONRSEISD —1.4062e ^ C PCZOPCE E 

LEO PCIE 9 | Z0 P CLR SE | 400 — 1. 2835e ,从 而 可 得 到 Posterior (8H) — 0. 0987 — 
Posterior(C Zt) —0. 9013 . Py lt; Zc ^E K9 Js WEER REIS Too] 7g Ze TE, 


557.4 朴素 贝 叶 斯 分 类 算法 的 改进 


朴 系 贝 叶 斯 分 类 模型 的 条 件 属 性 独立 性 假设 在 很 大 程度 上 限制 了 其 分 类 的 性 能 ,该 
领域 的 学 者 们 一 直 致 力 于 如 何 通过 对 算法 的 改进 ,减弱 这 种 独立 性 假设 市 来 的 影 啊 。 

目前 提出 的 改进 方法 中 总 体 趋 努 是 将 朴素 贝 叶 斯 分 类 模型 的 结构 复杂 化 ,从 而 更 
准确 地 摘 述 训练 数据 。 但 是 ,需要 意识 到 , 朴 系 贝 叶 斯 分 类 模型 的 结构 并 不 是 越 复 杂 
越 好 。 人 研究 表明 ,如 琳 模 型 的 结构 过 于 复 米 , 容 匈 造成 过 分 拟 合 的 后 来。 也 就 是 说 , 当 
应 用 过 于 复杂 的 分 类 模型 去 分 类 一 个 新 的 实例 时 ,会 有 很 高 的 误 分 率 。 这 样 ,会 出 现 
两 种 矛盾 的 情况 : 如 果 结 构 较 何 单 ,如 最 原始 的 朴 系 贝 叶 斯 分 类 模型 , 则 有 很 强 的 限制 
RIF: 如 采 络 构 太 复杂 , 则 会 导致 过 分 的 拟 合 。 本 章 主 要 通过 介绍 和 分 析 几 种 目前 较 经 
典 和 较 成 熟 的 朴 双 贝 叶 斯 分 类 模型 改进 方法 来 解决 原始 朴 系 贝 叶 斯 分 类 模型 限制 性 较 强 


的 问题 。 
P i 
RI e 
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7.4.1 "EAS Un Hr JE BUS 


PF hR UI np ELE AS T7 (Semi Naive Bayesian Classifiers, SNBCO . E-E -Œ pH pj 8r dv; 
夫 的 专家 Kononenko 于 1997 FHER. CEFR N n ER AEZS ROM n — Rp UEBLU, 2E 
朴素 贝 叶 斯 分 类 模型 的 基本 思想 是 根据 属性 之 间 关 联 程度 的 大 小 ,将 它们 划分 为 几 个 没 
有 交集 的 属性 组 ,从 而 使 得 各 个 属性 组 以 独立 的 形式 存在 ,并 保证 同 组 别 内 的 属性 之 间 存 
在 一 定 的 依赖 关系。 这 样 就 可 以 将 类 条 件 的 独立 性 放 先 到 属性 的 子 集 之 加 ,从 而 有 效 地 
减少 属性 的 独立 性 假设 对 分 类 性 能 产生 的 不 良 影响 多 ， 

半 朴 系 贝 叶 斯 分 类 模型 的 分 类 思想 和 分 类 过 程 属于 朴 系 贝 叶 斯 分 类 的 红 上 畴 , 它 与 传 
统 的 朴 桑 贝 叶 斯 分 类 模型 类 似 , 但 结构 比较 宁 次 。 半 杆 系 贝 叶 斯 分 类 模型 分 类 的 天 键 是 
如 何 利 用 局 发 式 搜 索 过 程 有 效 地 将 依赖 天 系 较 大 的 条 件 属性 聚集 到 一 组 构成 “组合 属 
性 ”。 半 朴素 贝 叶 斯 分 类 模型 如 图 7.2 Bron. 





B 
| DOD ”NE 
图 7.2 半 朴 素 贝 叶 斯 分 类 模型 


通过 对 朴 紊 贝 叶 斯 分 类 模型 的 学 习 , 可 以 知道 ,在 分 类 之 前 ,已 知 的 数据 集合 为 也 三 
(Ai 4，… An C) HEP A ,A,,…,A, 表示 条 件 属性 ,C 表示 决策 属性 。 下面 开始 介绍 半 
仆 紊 贝 叶 斯 分 类 模型 的 撒 述 。 

CD 模型 由 新 的 m 个 结 点 B11,B,,…,B,, (1 三 i 三 m 达 nn) 构 成 ,其 中 ,B, 是 {41 ,A,,…， 
A,) 的 重新 划分 ,是 原 属 性 集 的 一 个 子 集 。 

(2) 划分 到 不 同 组 的 属性 之 间 需 要 满足 不 相交 的 条 件 且 所 有 组 的 属性 合并 以 后 所 构成 
的 整体 的 集合 是 原 属 性 集 。 即 . B; 仆 吾 王 包 和 关 ) ,1 过 ;过 7 Bi UB: U + U Bn = 
P NE CR LL DN 

(3) 当 iz5; 时 ,B; 4I B; 相对 于 类 变量 C 而 言 是 条 件 独 立 的 , 即 : 


P(B.B;|C)—- P(B; | OP (B; |C), (iz j.leijsm) (7.9) 
(4) 保证 每 个 组 属性 结 点 B; (1 过 ; 私 加 ) 中 条 件 属 性 的 个 数 不 大 于 有 R, 即 它 的 势 小 于 或 


着 等 于 预先 设 定 的 & 值 。 这 里 所 说 的 & 值 是 用 来 控制 网 络 复杂 度 的 : 当月 等 于 1 时, 半 
朴 系 贝 叶 斯 分 类 模型 就 和 化 为 原始 的 朴素 贝 叶 斯 分 类 模型 ; 但 当 & 值 过 大 时 , 半 朴 对 贝 
叶 斯 分 类 模型 结构 就 会 变 得 很 复杂 ,就 会 发 生 过 分 拟 合 的 情况 。 
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根据 上 述 过 程 ,可 以 得 出 半 朴 系 贝 叶 斯 分 类 模型 的 公式 为 : 


Csnec = arg maxP CC, [Enos A (7.10) 


=] 


式 中 ,b; 是 一 组 数值 器 量 , 是 组 属性 B; 中 包含 的 条 件 属性 AA As RS an, 


Q jo 9 -sai PT ES CIEL I8] E , Bl b; = {a dji s jo s" ** «0 jh M 


半 朴 素 贝 叶 斯 分 类 模型 的 优点 : 半 朴 素 贝 叶 斯 分 类 模型 考虑 了 属性 之 间 存 在 的 关 
联 , 并 根据 属性 之 间 的 关联 性 分 割 成 若干 个 不 相交 和 独立 的 属性 组 ,同时 允许 同一 个 属性 
组 内 的 属性 之 间 是 相互 依赖 的 。 这 样 在 很 大 程度 上 减少 了 属性 的 独立 性 假设 对 分 类 性 能 
的 不 恨 影 啊 。 

半 朴 素 贝 叶 斯 分 类 模型 的 缺点 : 半 朴 素 由 叶 斯 分 类 模型 的 关键 是 如 何 利用 启发 式 搜 
索 过 程 获 取 条 件 互 信息 ,从 而 有 效 而 快速 构成 "组 合 属性 ”。 但 是 ,如 果 目 标 数 据 集 过 于 庞 
大 ,或 者 数据 集中 的 属性 太 多 ,那么 计算 条 件 互信 息 时 就 可 能 需要 指数 级 的 时 间 ,这 对 运 
行 环境 有 一 定 的 要 求 , 很 可 能 会 造成 系统 的 骨 演 。 因 此 半 材 素 贝 叶 斯 分 类 模型 在 使 用 上 
有 一 定 的 局 限 性 。 


7.4.2 树 增强 朴 系 贝 叶 斯 分 类 模型 


树 增 强 朴 半 贝 叶 斯 分 类 模型 (Tree-Augmented Naive Bayesian Classifier,TAN) 是 一 
种 由 Friedman 等 提出 的 改进 朴 系 贝 叶 斯 的 树 状 形 贝 叶 斯 网 络 模 型 ,在 实际 应 用 中 的 , 它 
的 分 类 性 能 显 者 遍 于 朴 隶 贝 叶 斯 分 类 模型 。 

TAN 的 基本 思路 是 考虑 对 朴 系 贝 叶 斯 分 类 模型 进行 增强 ,在 你 留 其 结构 特点 、 放 松 
朴 系 贝 叶 斯 的 独立 性 假设 条 件 的 同时 ,允许 一 定 的 依赖 关系 出 现在 属性 变量 之 间 。TAN 
要 求 属性 结 点 除了 类 结 点 为 父 结 点 外 ,最 多 能 有 一 个 其 他 的 非 类 属性 能 够 作为 父 结 点。 
树 增强 朴 桑 贝 叶 斯 分 类 模型 结构 图 如 图 7. 3 所 示 。 





图 7.3 TAN 模型 结构 图 


在 分 类 之 前 ， 已 知 数 据 集 合 为 D — (A; ;A A, Es 其 中 Al,A,,…,A, 表示 条 件 
属性 ,C 表示 类 结 点 。 在 TAN 树 形 结构 中 ,属性 A; 的 父 结 点 集合 用 [| A; 表示 。 类 作为 
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树 的 根 结 点 ,是 没有 父 结 点 的 ; 条 件 属 性 最 多 只 有 一 个 非 类 的 父 结 点 。 因 此 有 : | | c = 9. 
| | 4， . || Aa; = Za 由 此 可 得 , 待 分 类 样本 X= {a sd s *** adp } 被 TAN 4r 2S si F 39] 给 C 
中 的 某 一 个 类 C,(0 夺 1 三 mp) 的 公式 可 以 表述 为 : 
Cran (入 ) 一 arg maxP (C) | | PG; | lla Ur. 113 
EC k—1 

(OD [Ie = {G} 0 € j S »0,Hl a, 没有 非 类 的 父 结 点 。 

(2) [Ia = Gea} Aa x j &i mls Ls mk x D,HI a, 有 一 个 非 类 的 父 结 点 。 

因此 , 当 a, 有 一 个 非 类 的 父 绪 点 时 ,就 产生 了 如 何 确定 a, 的 非 类 父 结 点 这 一 关键 
问题 。 

这 里 主要 介绍 由 Friedman 等 提出 的 基于 分 布 的 构造 算法 ( 记 为 Distribution Based 
算法 )。 其 步 又 如 下 。 

(1) 计算 任意 两 个 条 件 属性 在 类 属性 下 的 条 件 互 信息 值 ， 


P(A A; | €) 


Piker Ü$*'9*n 


I (A; sÅ; | C)— |» P (Aj y v C) log: 
Aj AC 


(7.12) 

(2) 遍历 所 有 的 条 件 属 性 ,构造 一 个 完全 无 向 图 ,图 中 的 每 个 点 代表 一 个 属性 ,每 两 
个 属性 之 间 的 弧 用 属性 之 间 的 条 件 互 信息 T(4;,A;1C) 标 记 。 

(3) 痛 先 按 计算 出 的 权重 把 弧 从 大 到 小 排 友 ,然后 锭 守 选择 的 弧 不 能 构成 回路 的 原 
则 ,按照 被 排 好 的 序 选 择 边 ,从 而 遍历 构造 出 一 颗 最 大 权重 跨度 树 。 

(4) 在 所 有 的 属性 结 点 中 选择 一 个 结 点 作为 根 结 点 。 然 后 ,从 根 结 点 开始 ,将 所 有 的 
边 设置 为 由 根 结 点 指 问 其 余 结 点 的 边 , 从 而 将 无 问 无 环 树 转 化 为 有 问 无 环 树 。 

(5) 增加 一 个 代表 类 变量 的 结 点 ,并 增加 类 变量 到 各 个 条 件 属性 结 点 之 则 的 弧 , 构 成 
一 个 最 终 的 树 增 强 朴 款 贝 叶 斯 分 类 模型 。 

最 大 权重 跨度 树 的 结构 如 图 7.4 所 示 。 虚 线 表 示 从 类 别 结 点 指 回 各 个 属性 的 边 , 实 
线 表 示 从 属性 之 间 的 关系 学 习 的 最 大 支撑 树 。 

在 TAN 中 ,采用 了 信息 论 中 的 条 件 互 信息 概念 ,利用 它 来 度量 出 属性 之 间 存 在 的 依 
赖 关系 的 程度 。 因 为 I(4;,A;|1C)= 二 I(4;,A;|C), 所 以 在 C 给 定 后 ,不 论 从 A; 处 获得 A， 
的 信息 量 ,还 是 从 A 处 获得 A; 的 信息 量 , 部 是 相等 的 。I(Ah;,A;|1C) 值 越 大 说 明 依 赖 程 
度 越 大 。 特 别 的 情况 是 , 当 A MA 在 类 属性 C 下 独立 时 ,有 了 I(A;,A;|1C) 二 0。 得 出 这 些 
值 后 ,可 以 通过 条 件 弧 信息 值 来 确定 依赖 性 较 高 或 者 较 低 的 属性 对 。 

树 增 强 朴 素 贝 叶 斯 分 类 模型 的 优点 如 下 。 

(1) 树 增 强 朴 北 贝 叶 斯 分 类 模型 很 大 程度 上 削弱 了 朴素 贝 叶 斯 模型 的 条 件 属 性 独立 
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图 7.4 最 大 权重 跨度 树 的 结构 


性 假设 。 在 数据 集 规模 适中 ,额外 开销 不 大 的 情况 下 ,可 以 有 效 地 提高 分 类 的 性 能 。 

(2) 树 增强 朴 厅 贝 叶 斯 分 类 模型 限制 每 个 非 类 属性 最 多 只 能 有 一 个 非 类 别 父 结 点 ， 
从 而 一 方面 可 以 减少 搜索 空间 , 另 一 方面 可 以 有 效 缓 解 条 件 表 的 规模 随 着 父 结 点 的 增加 
而 急剧 增长 。 这 样 不 但 减轻 了 从 数据 估计 概率 的 问题 ,也 允许 了 一 定数 量 的 属性 之 间 的 
依赖 性 。 

树 增 强 朴 又 贝 叶 斯 分 类 模型 的 缺点 如 下 。 

(1) 使 用 树 增 强 朴 系 贝 叶 斯 分 类 模型 进行 分 类 时 ,数据 的 属性 必须 是 离 项 的 。 如 琳 
数据 是 连续 型 的 , 则 需要 预先 做 离散 化 处 理 , 且 要 离散 多 少 值 ,离散 成 什么 样 的 值 ,都 比较 
难以 界定 ,在 一 定 程度 上 增加 了 计算 量 。 而 且 ,离散 过 程 也 会 相应 地 增加 存储 的 空间 ,从 

影响 算法 的 性 能 。 

(2) 树 增强 朴 率 贝 叶 斯 分 类 模型 需要 条 件 属性 之 间 的 互信 息 值 来 度量 属性 之 间 的 强 
弱 关 系 , 这 就 代表 看 树 增强 朴 系 贝 叶 斯 分 类 模型 与 传统 的 村 了 系 贝 叶 斯 分 类 模型 相 比 ,需要 
更 多 的 计算 时 间 和 更 坚实 的 硬件 条 件 ( 即 模型 的 运行 环境 ) 。 它 以 牺牲 运行 时 间 换 来 分 类 
性 能 的 提高 。 

(3) 树 增 强 朴 又 贝 叶 斯 分 类 模型 是 人 为 的 分 开 属 性 ,使 得 每 个 非 类 别 属 性 绪 点 最 多 
只 能 有 一 个 非 类 别 属性 结 点 作为 其 父 结 点 ,而 与 其 他 非 类 别 属性 结 点 之 间 依 旧 需 要 满足 
独立 性 假设 ,仍然 存在 朴 双 贝 叶 斯 模型 独立 性 假设 市 来 的 问题 。 

综 上 所 述 , 树 增强 型 朴 桑 贝 叶 斯 分 类 模型 虽然 有 一 定 的 缺陷 ,但 是 相 比 较 于 传统 的 村 
系 贝 叶 斯 分 类 模型 ,在 额外 开销 不 大 的 情况 下 ,仍然 具有 较 好 的 分 类 效果 。 


7.4.3 贝 叶 斯 网 络 


贝 叶 斯 网 络 (Bayesian Network,BN) 又 称 为 贝 叶 斯 信念 网 络 , 它 的 概念 在 1988 年 由 
Pearl 提出 后 ,已 经 成 为 近 几 年 来 研究 的 热点 。 贝 叶 斯 网 络 是 一 种 更 高 级 、 应 乃 围 更 广 
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的 贝 叶 斯 分 类 算法 。 它 既是 概率 推理 的 图 形 化 网 络 , 又 是 模型 的 一 种 重要 的 扩展 。 它 的 
核心 思想 是 将 概率 统计 方法 应 用 到 复 灯 领域 中 进行 不 确定 性 推理 及 数据 的 分 析 , 是 目前 
表达 不 确定 知识 和 推理 的 最 有 效 末 的 理论 模型 之 一 。 

相 比 于 朴素 贝 叶 斯 分 类 算法 的 星 形 结 构 和 TAN 分 类 算法 的 树 形 结构 , 贝 叶 斯 网 络 
的 结构 能 够 避免 有 用 信息 的 丢失 ,进而 保证 分 类 能 力 。 贝 叶 斯 网 络 分 类 算法 使 用 联合 概 
率 的 最 优 压缩 展开 式 进 行 分 类 ,元 分 利用 了 属性 变量 之 则 的 依赖 关系 ,能够 更 好 地 提高 分 
类 正确 率 。 贝 叶 斯 网 络 结构 图 如 图 7.5 所 示 。 


图 7.5 贝 叶 斯 网 络 结构 图 





贝 叶 斯 网 络 分 类 算法 的 结构 是 由 {41,A;,…,A,,C) 构 成 的 网 络 结 构 。 一 个 贝 叶 斯 网 
络 包括 两 个 部 分 ,第 一 部 分 是 有 向 无 环 图 (DAG) ,第 二 部 分 是 一 个 条 件 概 率 表 集合 ,两 者 
结合 就 是 贝 叶 斯 网 络 。 图 7.5 就 是 一 个 有 问 无 环 图 , 它 含有 两 个 部 分 ,一 个 部 分 是 结 点 ， 
男 一 个 部 分 是 结 点 之 间 的 有 癌 边 。 在 有 问 无 环 图 中 ,用 有 向 边 来 表示 随机 变量 之 间 的 条 
件 依赖 性 ,用 每 一 个 结 点 表示 一 个 随机 变量 。 条 件 概 率 表 中 的 每 一 个 元 素 对 应 有 问 无 环 
图 中 唯一 的 结 点 。 

构造 与 训练 贝 叶 斯 网 络 分 为 以 下 两 个 步骤 。 

(1) 首先 要 确定 随机 变量 之 间 的 拓扑 关系 ,形成 有 问 无 环 图 。 这 一 步 通 常 需 要 实际 
领域 的 专家 来 辅助 完成 ,需要 进行 不 断 迭 代 和 改进 才能 建立 一 个 好 的 拓扑 结构 。 

(2) 训练 贝 叶 斯 网 络 。 这 一 步 也 就 是 要 完成 算法 中 条 件 概 率 表 的 构造 ,如 果 每 个 随 
机 变量 的 值 都 是 可 以 直接 观察 的 ,那么 这 一 步 的 训练 可 以 较为 简单 的 进行 ,方法 类 似 于 朴 
系 贝 叶 斯 分 类 。 但 是 ,如 果 贝 叶 斯 网 络 中 存在 隐藏 变量 结 点 ,在 这 种 情况 下 训练 方法 就 会 
比较 复杂 。 

贝 叶 斯 网 络 的 优点 如 下 。 

(1) 贝 叶 斯 网 络 采 用 了 图 像 化 的 方式 来 表达 数据 之 间 的 关系 ,给 人 更 加 直观 、 易 懂 的 

(2) 贝 叶 斯 网 络 在 继承 了 贝 叶 斯 分 类 算法 高 分 类 精度 的 同时 ,基于 联合 概率 分 解 的 
原理 也 有 效 避 免 了 贝 叶 斯 分 类 算法 的 指数 复杂 性 问题 。 

(3) 贝 叶 斯 网 络 能 够 较 好 地 处 理 不 确定 .不 完备 的 数据 集 。 贝 叶 斯 网 络 模型 体现 出 
的 是 整个 的 数据 集 之 间 的 概率 关系 ,因此 它 在 数据 存在 缺失 的 情况 下 依然 可 以 有 效 地 进 
ITER, 


贝 叶 斯 网 络 的 缺点 如 下 。 

(1) 贝 叶 斯 网 络 结构 中 的 有 回 无 环 网 必须 是 无 环 且 是 静态 的 。 无 环 表示 该 算法 考虑 
的 是 变量 之 间 的 单 回 关系 ,但 是 在 实际 中 的 很 多 情况 下 ,变量 是 会 相互 影响 的 。 静 态 则 表 
示 贝 叶 斯 网 络 模型 是 静态 的 ,这 意味 看 它 忽 略 了 时 间 的 因 系 ,然而 因果 之 间 也 是 存在 时 间 
关系 的 。 这 些 都 会 对 分 类 效果 产生 影响 ，。 

(2) 贝 叶 斯 网 络 在 绪 构 上 比 朴 素 贝 叶 斯 分 类 算法 复杂 太 多 ,要 构造 和 训练 出 一 个 好 
的 见 叶 斯 网 络 通 常 是 十 分 困难 的 。 


7.4.4 dx unm 


朴素 贝 叶 斯 树 (NBTree) 算 法 是 由 Kohavi 提出 的 一 种 改进 的 朴素 贝 叶 斯 算法 , 它 是 
决策 树 和 朴 双 贝 叶 斯 分 类 兹 的 结合 。 这 种 算法 保留 了 决 案 树 和 村 又 贝 叶 斯 分 类 器 的 易 解 
释 性 和 计算 量 相 对 不 大 的 特点 ,并 且 分 类 效果 通 津 较 好 ,特别 适用 于 大 型 数据 集 。 

村 又 贝 叶 斯 树 算法 的 基本 思想 是 在 树 的 构建 过 程 中 ,对 产生 的 每 个 结 点 构建 朴 系 贝 
叶 斯 分 类 虽 , 并 循环 这 个 过 程 ,直至 所 有 结 点 都 成 为 叶子 结 点 ,最 后 对 每 一 个 叶子 结 点 部 
构建 一 个 朴 双 贝 叶 斯 分 类 算法 。 朴 取 贝 叶 斯 树 算法 的 输入 为 一 个 类 别 实例 集 合 了 ,输出 
ze WE ARR UI n rS HU URBI. 

FRZ Ul n EPI SEE BJ TRES AI. 

CD 对 于 属性 (4: As n AL) ,计算 每 个 属性 A; 的 效用 值 w(4,)。 如 果 是 连续 型 属 
性 , 则 计算 国 值 。 

(2) 取得 效用 最 高 的 属性 , 即 

] = arg max pi 

(3) WR jj 不 是 显 着 优 于 当前 结 点 , 则 为 当前 结 点 创建 一 个 朴 系 贝 叶 斯 分 类 疾 , 然 
后 返回 。 
(4) 根据 A; 分 割 T。 如 果 A; 是 连续 型 的 , 则 分 割 国 值 : 如 果 A; 是 离散 的 , 则 对 所 有 
可 能 的 值 进行 多 癌 分 割 。 

(5) 对 每 一 个 子 结 点 递归 调用 前 述 步 又 ,使 得 工 中 的 一 部 分 能 与 子 结 点 匹配 。 

朴素 贝 叶 斯 树 算 法 在 实际 中 的 应 用 并 不 广泛 ,这 里 简单 介绍 一 下 它 的 两 个 优点 : 第 
一 ,算法 过 程 非 第 清晰 、 直 观 , 可 理解 性 很 强 ; 第 二 ,在 计算 复杂 度 不 高 的 前 提 下 能 保持 较 
高 的 分 类 正确 率 , 有 利于 大 型 数据 的 集中 利用 。 


7.4.5 属性 加 权 朴 系 贝 叶 斯 分 类 算法 


朴素 贝 叶 斯 算法 基于 条 件 独立 性 假设 ,认为 每 个 属性 对 类 属性 影响 相同 。 但 事实 并 
非 如 此 ,如 果 把 与 分 类 无 关 的 .元 余 的 及 被 噪声 污染 的 属性 和 其 他 属性 视 为 同等 地 位 ,就 
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会 导致 分 类 的 准确 率 下 降 。 为 提高 朴素 贝 叶 斯 算法 的 准确 率 、. 扩 大 其 适用 范围 ,人 们 将 各 
种 属性 加 权 算 法 和 朴素 贝 叶 斯 算法 相 结合 ,根据 各 属性 对 分 类 影响 的 大 小 赋予 不 同 的 权 
重 , 将 朴素 贝 叶 斯 算法 扩展 为 加 权 朴素 贝 叶 斯 算法 (WNBC)。 其 中 ,加 权 朴 素 贝 叶 斯 分 类 
算法 的 模型 大 多 为 


C(X)— argmaxP (C; ) | | P(X; DE de Alc. ml: D 
j=1 


式 中 ,w; 为 属性 A; 的 权 值 。 属 性 的 权 值 越 大 表明 该 属性 对 分 类 的 有 影响 越 大 ， 

对 于 加 权 朴 素 贝 叶 斯 分 类 算法 而 言 , 最 重要 的 是 权 值 的 测量 ,如何 找 到 一 个 合适 的 
权 值 是 该 类 算法 的 核心 内 容 。 这 里 简单 介绍 一 下 加 权 朴 素 贝 叶 斯 分 类 算法 ,这 种 算法 
除了 权 值 的 计算 外 ,还 保留 了 经 典 的 朴 妹 贝 叶 斯 分 类 算法 的 其 他 流程 。 算 法 的 步骤 
Wb. 

(1) 数据 预 处 理 阶段 。 通 常情 况 下 进行 填补 缺失 值 数据 离散 化 和 去 际 无 用 属性 的 
TRE ,也 可 以 根据 权 值 计算 的 需求 对 本 步 又 做 出 调整 。 

(2) 概率 统计 参数 学 习 。 该 步骤 与 朴 系 贝 叶 斯 分 类 算法 的 学 习 过 程 相同 。 

G) 权 值 参数 学 习 。 扫 摘 训 练 样本 和 集 , 根 据 权 值 的 定义 规则 ,计算 各 属性 A; 对 应 的 
权 值 wi o 

(4) 算法 生成 。 生 成 加 权 朴 每 贝 叶 斯 概率 表 、 属 性 权 值 表 , 即 为 改进 的 分 类 算法 。 

(5) 分 类 。 对 于 测试 样本 和 ,调用 概率 表 及 特征 权 值 列表 ,得 到 分 类 绪 末 。 

与 朴 孙 贝 叶 斯 算法 相 比 , 加 权 朴 系 贝 叶 斯 算法 的 分 类 能 力 往 往 会 有 比较 明显 的 提升 。 
由 此 可 以 看 出 ,加 权 朴 条 贝 叶 斯 算法 更 加 有 效 地 利用 了 梓 本 数据 信息 ,对 属性 与 拓 别 之 问 
的 关联 性 进行 了 进一步 利用 ,这 也 是 分 类 性 能 提升 的 一 个 主要 原因 。 


(557.5 朴素 贝 叶 斯 算法 MATLAB 实践 


朴素 贝 叶 斯 算法 是 目前 公认 的 一 种 简单 有 效 的 分 类 方法 , 随 者 其 分 类 模型 的 不 断 发 
展 和 完善 ,目前 已 被 广 沁 地 应 用 于 模式 识别 .自然 语言 处 理 、 机 器 人 导航 、 规 划 、 机 上 需 学 习 
及 利用 贝 叶 斯 网 络 技术 构建 和 分 析 软 件 系 统 等 诸多 领域 。 当 属性 之 间 相 关 性 较 小 时 ,分 
类 效率 好 ; 当 属 性 之 间 相 关 性 较 大 时 ,分 类 不 如 决策 树 。 

在 MATLAB 中 ,为 方便 用 户 对 决策 树 算法 的 使 用 ,MATLAB 中 针对 朴素 贝 叶 斯 分 类 
算法 封闭 了 图 数 fitecnb。 函 数 最 简单 的 使 用 方法 为 Mdl 二 fitecnb(TBL,Y) ,其 中 ,TBL 为 样 
本 属性 值 窍 阵 ,Y 为 样本 标签 。 使 用 较为 高 级 的 调用 方式 可 通过 Mdl-fitenbCTBL.Y. 
Name, Value) 进 行 调用 ,其 中 ,Name 为 可 选 参 数 的 名 称 ,Value 为 可 选 参 数 的 参数 取 值 ， 
在 未 对 可 选 参 数 赋值 时 ,其 取 值 为 默认 值 。 

利用 MATLAB 中 自 带 的 统计 3 种 膏 尾 属 植物 样本 数据 fisheriris, 其 属性 分 别 为 花 


í.,9-"79 n0, 
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SK F BE EHI BE LAE BE ,标签 分 别 为 'setosa'、versicolor' 和 "virginica'。 具 
体 代 码 实例 如 下 (NB_Mat.m 文件 ): 


$% 朴素 贝 叶 斯 算法 MATLAB 实现 


clear all; 





close all; 

clc; 

load fisheriris 
X = meas; 


Y= species; 


E c t ET Tm TE ET T T TT E 





Mdl = fitcnb(X, Y) & 训练 朴素 贝 叶 斯 模型 

Mdl.ClassNames & 对 模型 中 的 (分 类 名 称 ) 参 数 进 行 显示 查看 
| Mdl.Prior % 对 模型 中 的 ( 先 验 概率 ) 参 数 进行 显示 查看 

运行 后 ,MATLAB 命令 行 窗口 显示 结果 如 下 

Mdl = 


ClassificationNaiveBayes 
ResponseName: 'Y' 
CategoricalPredictors: [] 
ClassNames: ('setosa' 'versicolor' 'virginica'] 
ScoreTransform: 'none' 
NumObservations: 150 
DistributionNames: ('normal' 'normal' 'normal' 'normal!'] 
DistributionParameters: {3 X 4 cell] 


ans = 
3x1 cell 数组 
'setosa' 
'versicolor' 
'virginica' 
ans = 
0.3333 D. 3333 0. 3333 


4] 3| 5&3 EX MATLAB 命令 行 窗口 中 的 Properties 和 Methods 超 链接 ,在 窗口 中 
的 显示 分 别 如 下 。 
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类 ClassificationNaiveBayes 的 属性 : 
Y 
X 


RowsUsed 


NumObservations 
HyperparameterOptimizationResults 
PredictorNames 
CategoricalPredictors 
ResponseName 
ExpandedPredictorNames 

ClassNames 


: 
ModelParameters 
MÀ (此 处 省 略 ) 

Properties 显示 的 是 类 ClassificationNaiveBayes W Pr A C MEEN Æ RAJE D I 
斯 模型 ) 属 性 ,是 指 通过 fitcnb 训练 得 到 的 模型 所 有 属性 ,部 分 属性 值 可 在 fitenb PA gii 
用 时 进行 定义 ,如 上 述 程 序 中 的 PredictorNames( 描 述 各 属性 的 名 称 ) 等 。 男 外 一 部 分 则 
是 对 形成 的 模型 的 具体 属性 描述 ,如 Prior( 描 述 模型 的 先 验 概率 ) 等 。 由 于 各 属性 是 属于 
训练 成 的 模型 ,因此 当 需 要 观测 和 调用 属性 值 时 ,可 采用 MDL. XXX 调用 ,其 中 MDL 表 
示 训 练 生 成 的 树 的 名 称 ,XXX 表示 属性 名 称 。 


类 ClassificationNaiveBayes 的 方法 : 


compact crossval logP margin resubEdge 
resubMargin compareHoldout edge loss predict 
resubLoss resubPredict 


单 击 Methods 显示 的 是 类 ClassificationNaiveBayes Cn] H f N ^E JN Bop z& D np Hp pz 
型 ) 的 操作 方法 , 共 包 括 12 种 。 

对 于 属性 和 方法 的 具体 含义 及 使 用 方法 ,可 通过 help X XX 查询 , X X X 为 属性 或 
者 方法 名 。 下 面 介 绍 分 类 预测 (predict) 的 使 用 方法 。 其 语法 为 : 


predict(Mdl, x) 


其 中 ,Mdl 为 上 述 生 成 的 朴 系 贝 叶 斯 模型 ,z 为 预测 个 体 的 属性 值 癌 量 。 
在 MATLAB 命令 行 窗 口中 输入 : 


>> predict(Mdl,[10.20.42]); ^ %[10.20.42] 为 测试 样本 数据 ,可 为 向 量 和 矩阵 


LI z » F m 
x " 
z * 
= P 
s y * 
a * 
年 F 
= Li 
H * 
* a 
^ oa 4 . 


: 机 器 学 习 人 入门 到 实战 一 MATLAB 实 践 应 HH 
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表示 通过 决策 树 分 类 后 ,属性 值 为 |1 0. 2 0.4 2 IRIS FÉ ER TEL A 'versicolor', 
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线性 回归 





回归 是 统计 学 中 最 有 力 的 工具 之 一 。 机 需 学 习 监 督学 习 算 法 分 为 分 类 算法 和 回归 算法 
两 种 ,其 实 就 是 根据 类 别 标签 分 布 类 型 为 离散 型 .连续 型 而 定义 的 。 顾 名 思 义 ,分 类 算法 用 
于 离散 型 分 布 预测 ,如 KNN, 决策 树 、 朴 素 见 叶 斯 .AdaBoost、 SVM 都 是 分 类 算法 。 回 归 算 
法 用 于 连续 型 分 布 预测 ,针对 的 是 数值 型 的 样本 ,使 用 回归 ,可 以 在 给 定 输入 时 预测 出 一 个 
数值 ,这 是 对 分 类 方法 的 提升 ,因为 这 样 可 以 预测 连续 型 数据 而 不 仅 是 离散 的 类 别 标签 。 

回归 的 目的 就 是 建立 一 个 回归 方程 用 来 预测 目标 值 , 回 归 的 求解 就 是 求 这 个 回归 方 
程 的 回归 系数 。 预 测 的 方法 当然 十 分 简单 ,回归 系数 乘 以 输入 值 再 全 部 相 加 就 得 到 了 预 
测 值 。 线 性 回归 (Line Regression) 是 利用 数理 统计 中 回归 分 析 , 来 确定 两 种 或 两 种 以 上 
变量 之 间 相 互 依 赖 的 定量 关系 的 一 种 统计 分 析 方 法 ,运用 十 分 广泛 。 其 表达 形式 为 y= 
zuIrz 十 eye 为 误差 ,服从 均值 为 0 的 正 态 分 布 吕 。 


(8.1 线性 回归 原理 


8.1.1 简单 线性 回归 


回归 最 简单 的 定义 是 ,给 出 一 个 点 集 D, 用 一 个 函数 去 拟 合 这 个 点 集 ,并 且 使 得 点 集 
与 拟 合 函 数 之 间 的 误差 最 小 ,如 果 这 个 函数 曲线 是 一 条 直线 , 那 就 被 称 为 简单 线性 回归 。 

简单 线性 回归 就 是 很 多 做 决定 的 过 程 ,通常 是 根据 两 个 或 者 多 个 变量 之 间 的 关系 来 
建立 方程 ,模拟 两 个 或 者 多 个 变量 之 间 如 何 关 联 。 被 预测 的 变量 称 为 因 变 量 (Dependent 
Variable) 或 输出 (Output); 被 用 来 进行 预测 的 变量 称 为 月 变量 (Independent Variable) 
或 输入 (Input) 。 
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简单 线性 回归 包含 一 个 自 变 量 x 和 一 个 因 变 量 y ,并 且 以 上 两 个 变量 的 关系 可 用 一 
条 直线 来 模拟 。 如 上 果 包 含 两 个 以 上 的 上 月 变量 , 则 称 为 多 元 回归 分 析 (Multiple 
Regression)。 简 单 的 线性 回归 模型 是 被 用 来 描述 因 变 量 y 和 上 自 变量 z 及 偏差 error 之 间 
关系 的 方程 。 其 模型 为 
y — f - Bx 4-6 (8. 1) 
式 中 ,8 一 1,2) 为 参数 ; e 为 偏差 ,是 一 个 随机 变量 ,服从 均值 为 零 的 正 态 分 布 。 由 于 正 
太 分 布 的 偏差 6 的 期 望 值 是 零 , 因 此 简单 的 线性 归 回 方程 为 : 
E(y)— B - Bx (8. 2) 
这 个 方程 对 应 的 图 像 是 一 条 直线 , 称 为 回归 线 。 式 中 ,B, 为 回归 线 的 截 距 ; B 为 回归 
线 的 斜率 ; EF(y) 为 在 一 个 给 定 xz 值 下 yy 的 期 望 值 (均值 )。 所 以 E(y) 与 x 之 间 具 有 如 下 
3 种 关系 ,分 别 如 图 8. 1 一 图 8. 3 所 示 。 


E(y) E(y) | E(y) 
f Po 
| 

B f Pi 

O Ý O X O 

图 8.1 正 向 线性 关系 图 8.2 负 回 线性 关系 图 8.3 无 关系 
简单 线性 回归 方程 的 估计 方程 为 : 

a (8.3) 


这 个 方程 称 为 信 计 的 线性 回归 方程 。 式 中 ,bo D d T EXE 75 EE BJ AAE , E X E SK 
的 Bo 的 一 个 估计 ; bi 为 估计 线性 方程 的 斜率 ,是 对 真实 的 的 一 个 估计 ; y 是 在 自 变量 x 
等 于 一 个 给 定 值 时 y 的 佑 计 值 。 


8.1.2 线性 回归 实例 


下 面 是 某 商 家 提供 的 广告 数量 与 卖 出 产品 的 数量 关系 ,用 于 线性 回归 模型 举例 , 如 
表 8. 1 所 示 。 
表 8.1 广告 数量 与 卖 出 产品 数量 表 
广告 数量 (z) 卖 出 产品 数量 (y) 卖 出 产品 数量 (y) 
>》 工 一 10 >,y 一 100 
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广告 效 量 


图 8.4 广告 数量 与 卖 出 产品 数量 的 关系 


以 式 (8. 4) 为 评价 标准 ,可 以 找到 这 条 直线。 
min 2, (y; — 3i (8. 4) 
经 过 求 导 化 简 , 可 得 到 式 (8. 50 5j X C8. 6) 
zi) y) 
ea 
bo = y—b Z (8.6) 
根据 表 8. 1 所 示 的 数据 ,可 得 : 


O (1-2) (04 —20)t (3—2) (24 20) 20. 
i (1—c2y' 4G —2)* 4-9 4 


bo = 20—5 X2 = 10 
所 以 ,线性 回归 方程 为 : 


bi 





广告 数量 


图 8.5 最 优 方 程 对 应 的 直线 
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(78.2 多 元 线性 回归 


前 面 介 绍 的 线性 回归 中 只 有 一 个 自 变量 x, 而 多 元 线性 回归 有 和 多 个 自 变 量 , 其 形式 为 
一 个 向 量 。 给 定 由 d 个 属性 描述 的 实例 站 = Ge xs tx EF r 是 于 属性 的 第 i 个 
值 ,多 元 线性 回归 模型 为 -2 : 
f (xr) wazi, wers T cd wixa +b (B.T) 
一 般 用 癌 量 的 表示 形式 为 : 
fix)-—wX-b (8. 8) 
AIF w= (w sws sw). AYR w 与 95, 多 元 线性 回归 模型 就 确定 了 。 多 元 线 
性 回归 模型 形式 简单 .易于 建 模 , 其 中 歼 含 着 机 需 学 习 中 一 些 重要 的 基本 思想 。 许 多 功能 
更 为 强大 的 非 线 性 模型 都 以 线性 模型 为 基础 。 
si .Np 
yi 人 EER。 多 元 线性 回归 试图 用 一 个 线性 模型 以 尽 可 能 准确 地 预测 实 输出 。 
多 元 线性 回归 试图 学 得 模型 为 ， 
f(X:)= wX; +b (8. 9) 
多 元 线性 回归 模型 就 是 通过 确定 w 和 6, 使 f(X;) 无 限 接近 y;。 均 方差 有 非常 好 的 
几何 意义 , 它 对 应 了 营 用 的 欧 几 里 得 距离 或 简称 “欧式 距离 ”。 均 方差 是 多 元 线性 回归 任 
务 中 常用 的 性 能 度量 ,因此 可 试图 让 反应 f(X;) 与 y: 接近 程度 的 均 方 差 最 小 化 , 即 利 用 
最 小 二 乘法 对 w Ab 进行 估计 。 为 便于 讨论 ,把 w 和 6 "GARA p] TRJE SX W — Ow. ,相应 
地 ,把 数据 集 D 表示 为 一 个 mX(d 十 1) 大 小 的 矩阵 立 ,其 中 每 行 对 应 于 一 个 实例 ,该 行 前 
d 个 元 素 对 应 于 实例 的 4a 个 属性 值 , 最 后 一 个 元 素 横 置 为 1, 即 


E11 X12 D Tid ] Ai l 

, X21 3 22 UU" — Eg ] NEC l 
X-—|. . - ab: i (8. 10) 

ZO dp 09€ dg d X; 了 


再 把 输出 也 写成 向 量 形 式 


yy 一 (yiyyz，…yn) (8.11) 
根据 均 方 误差 最 小 化 原则 ,有 
W' = arg min (y—XW)'(y XW) (8. 12) 
4 Ey — (y XW)' OXW), X} W 求 导 得 到 
9 Ey — fT / mE 
Bw) (8.13) 


A 3X C8. 13) Jg 2E n] f W dec DUE E] P] CE AH EH T VP SCR S BI TT. ECCE RE OE E 


复杂 一 些 。 下 面 做 一 个 简单 的 讨论 。 
M XT X 为 满 秩 算 阵 或 正定 矩阵 时 , 令 式 (8. 13) 为 零 可 得 
WW ot TE (8. 14) 
式 中 ,(X TX ) ! 为 矩阵 XTX NEE., SX 二 (X;,1), 则 最 终 得 到 的 多 元 线性 回归 模 
型 为 : 
He (8.15) 
然而 ,现实 任务 中 XX EED EREE. fn]. ETT d TES P ASSI 3E 
5 ,其 数目 甚至 超过 样 例 数 ,导致 X 的 列 数 多 于 行 数 ,XTX 显然 不 满 秩 。 此 时 可 解 出 多 
个 W ,它们 都 能 使 均 方 差 最 小 化 ,选择 哪 一 个 解 作 为 输出 ,将 由 学 习 算 法 的 归纳 偶 好 决 
定 , 和 常见 的 做 法 是 引入 正则 化 项 站。 


全 3.3 线性 回归 算法 的 MATLAB 实践 


在 MATLAB 中 ,为 方便 用 户 对 线性 回归 算法 的 使 用 , MATLAB 中 针对 线性 回归 封 
Je [p PRX. fitlm, 该 函数 不 仅 适用 于 前 面 提 到 的 简单 线性 回归 ,同时 也 适用 于 多 元 线性 回 
IH. Kt fitlm 的 使 用 方法 有 如 下 几 种 。 


mdl = fitlm(tbl) |] 


mdl = fitlm(tbl,modelspec) 

mdl = fitlm(X, y) 

mdl = fitlm( X, y,modelspec) 

mdl = fitlm( X, y, Name, Value) 或 者 mdl = fitlm(tbl, Name, Value) 





eu n 


其 中 ,tbl 表示 样本 的 属性 和 标签 的 Table 格式 的 数据 , 且 最 后 一 列 为 样本 标签 ; 
modelspec 表示 线性 拟 合 的 方式 ,其 相关 参数 可 为 ; 'constant'，'linear','interactions'， 
'purequadratic', 'quadratic'® , 45 Jil] A zs E 9C [n1 0 WE CB — 28 Bi 2X . ELE UL HT EE 
交叉 项 的 拟 合 (但 不 存在 平方 项 ) ,存在 平方 项 的 拟 合 (但 不 存在 交叉 项 ) ,交叉 项 和 平方 项 
同时 存在 的 拟 合 ; X 表示 样本 属性 矩阵 ; y 表示 样本 标签 的 问 量 ; Name 为 可 选 参数 的 名 
称 ; Value 为 可 选 参数 的 参数 取 值 ,在 未 对 可 选 参数 赋值 时 ,其 取信 为 默认 值 。 

本 实例 的 数据 来 源 于 MATLAB 目 市 的 carsmall 数据 集 , 在 本 实例 中 将 以 Weight 和 
Acceleration 为 日 变量 , MPG(Miles Per Gallon) 为 因 变 量 进 行 拟 合 。 具 体 代 码 实 例如 下 
(LineRe Mat. m X ff). 


$s 线性 回归 算法 MATLAB 实现 


clear all; 
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close all; 

cic; 

load carsmall & Zu A TUE SU 

tbl = table(Weight, Acceleration, MPG, 'VariableNames!'... 

, ('Weight', 'Acceleration', 'MPG']); 

lm = fitlm(tbl, MPG— Weight + Acceleration') $% D Weight 和 Acceleration Jj E ZIP ,MPG 为 

s 因 变 量 的 线性 回归 

plot3(Weight, Acceleration, MPG, '* ') 3; 绘制 数据 点 图 

hold on 

axis([min(Weight) +2 max(Weight) +2 min(Acceleration) +1 max(Acceleration) * 1 
min(MPG) +1 max(MPG) * 1]) 





title( ' 二 元 回归 ') * 编辑 图 形 名 称 

xlabel( Weight") * 编辑 x 坐标 轴 名 称 

ylabel( 'Acceleration') % 编辑 y 坐标 轴 和 名 称 

zlabel( 'MPG') S 编辑 z 坐标 轴 名 称 

X = min(Weight):20:max(Weight) +2 ; 当 生 成 用 于 绘制 二 元 拟 合 面 的 X 轴 数据 

Y-min(Acceleration):max(Acceleration) +1; 引 生 成 用 于 绘制 二 元 拟 合 面 的 Y 轴 数据 

[ XX, YY] = neshgrid(X, Y); & AE py, XY 轴 的 网 格 数据 

Estimate = table2array(lm. Coefficients); s 将 计算 得 到 的 table 格 式 的 拟 合 参数 转换 为 
* 4B PEJË XX 

Z= Estimate(1,1) + Estimate(2,1) * XX+ Estimate(3,1) * YY; & 计算 拟 合 面 的 Z 轴 数据 

mesh(XX, YY, Z) & 绘制 网 格 形 式 的 二 元 拟 合 面 

hold off 


cui te iT gr a, rt a a, gig e, qr cg) a qa Rcg a, gi gr tu, rt rn e qn eg e qu e a i e qan cg e gai a rU He gae i a, gia T e aa c a qa e cg a, ga, gr ue aa He aa i e aa T e gu. e gus 


^ 


行 后 MATLAB 命令 行 窗 口 显 示 结 果 如 下 : 


m m mmm mmumm m mumom m mm mom m mom om om m om mom m om m ow mm mom Om S m UO Go X GNO Um UNO M Gm UD Um UD UE GEO UR UR ED US UN UD GM US OE UR OD UE GU UE GU4O. UD UR (E S GS Uu UM OD OM UNDO GEO GE OG OZ (EL UEOGND OG OUO USO UE S USD GO UU UD GOOD GRO. US O4 UE OM UU UE USO UG UR UU OM GEO OU US GG UO GE (OUO UN USO GN UEM GE US GEL OD US ON UE GE UU UE USO UE GO GEO UD GÀ UO UO G8 OD Om GU GG UE Gm GE UR UG US -GXC UD GRO UG OUS 本 可 


Ip 


Linear regression model: 
MPG 一 + Weight + Acceleration 


Estimated Coefficients: 


Estimate SE tStat pValue 
(Intercept) 45.155 3.4659 13.028 1.6266e — 22 
Weight — 0.0082475 0.00059836 — 13. 783 5.3165e — 24 
Acceleration 0.19694 0.14743 1.3359 0.18493 


Number of observations: 94, Error degrees of freedom: 91 


本 


第 8 章 “线性 回归 ; 111 : 

Root Mean Squared Error: 4.12 

R- squared: 0.743, Adjusted R - Squared 0.738 

F- statistic vs. constant model: 132, p- value = 1. 38e- 27 

其 中 ,lm 输出 了 模型 的 相关 参数 ,MPG 一 1 十 Weight 十 Acceleration 表示 该 拟 合 模型 是 
包含 常量 的 , 且 以 Weight 和 Acceleration 为 日 变量 , MPG Jy A 2E s AIRA, Estimated 
Coefficients( 参 数 估计 表 ) 为 3X4 的 Table 数据 ,第 一 列表 示 拟 合 参 数 , 第 二 列 (SE) 表 示 
REH., 8 — 9] CtStaeO KR t AiE. p PU Pl CpValue) ÆR P Ez fH. plot3 和 mesh 
PR 2X JE 122 Fd y rh E PEU ET I AR AE] 8. 6 Bron. 


4 Figure 1 


MHD WAH ESM 插入 山 IA 桌面 D) 窗口 QW 帮助 (H) 
OQ&Hb5h««og9cgza0Ban 
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逻辑 回归 (Logistic Regression) 是 当前 业界 比较 第 用 的 机 融和 学 习 方 法 ,用 于 佑 计 茶 个 
事件 发 生 的 可 能 性 。 例 如 , 茶 用 户 购买 某 商 品 的 可 能 性 , 某 病 人 患 有 某 种 疾病 的 可 能 性 ， 
以 及 茶 广 告 被 用 户 点 击 的 可 能 性 等。 逻辑 回归 是 广义 线性 模型 的 一 个 特例 ,虽然 被 称 为 
回归 ,但 在 实际 应 用 中 常 被 用 作 分 类 。 用 于 描述 和 推断 两 分 类 或 多 分 类 应 变量 与 一 组 解 
释 变 量 的 关系 ,在 许多 科研 领 域 也 得 到 了 大 量 的 研究 和 应 用 。 


Qo 逻辑 回归 原理 


对 于 一 个 机 玫 学 习 方 法 ,通常 由 模型 . 宁 略 和 算法 3 个 要 系 构 成 。 模 型 是 假设 空间 的 
形式 ,如 是 线性 函数 还 是 条 件 概 率 ; 策略 是 判断 模型 好 坏 的 依据 ,寻找 能 够 表示 模型 好 坏 
的 数学 表达 式 ,将 学 习 问 题 转化 为 一 个 优化 问题 。 一 般 策 略 对 应 着 一 个 代价 函数 (Cost 
Function); 算法 是 上 述 优化 问题 的 求解 方法 ,有 多 种 形式 ,如 梯度 下 降 法 ED BOR E LR 
传 算法 等 。 对 于 逻辑 回归 也 一 样 。 首 先 , 它 依然 是 基于 线性 模型 的 ,但 是 为 了 解决 分 类 问 
题 ,需要 把 线性 模型 的 输出 做 一 个 变换 ,这 就 用 到 了 Sigmoid PR ZI. C BE g% FE IC giek H fi 
出 映射 到 (0,1) 区 间 。 这 就 为 输出 提供 了 很 好 的 概率 解释 。 但 是 从 本 质 上 来 说 ,逻辑 回归 
还 是 一 种 广义 的 线性 模型 。 对 于 策略 来 说 ,经 过 推导 可 以 知道 , 它 采 用 了 交 又 炉 损 失 据 
数 。 最 后 为 了 最 小 化 损失 晴 数 ,人 逻辑 回归 末 用 了 梯度 下 降 方 法 。 综 合 这 3 个 因素 ,就 构成 
了 逻辑 回归 算法 中 。 


9.1.1 Sigmoid 的 数 


Sigmoid 图 数 的 表达 式 如 下 : 





kw 





图 9.1 Sigmoid 函数 形式 


由 此 可 见 Sigmoid 困 数 的 值 域 范 围 为 (0,1)。 实 际 上 这 是 一 个 逻辑 分 布 的 特例 。 后 


面 会 讲 到 如 何 使 用 Sigmoid 图 数 来 构造 逻辑 回归 算法 。 


9.1.2 梯度 下 降 法 


BRE F IE (Gradient Descent,GD) 是 一 种 篆 见 的 最 优化 算法 ,用 于 求解 困 数 的 最 大 
值 或 最 小 值 。 在 高 等 数学 中 ,求解 一 个 函数 的 最 小 值 时 ,最 常用 的 方法 就 是 求 出 它 的 导数 
为 0 的 那个 点 ,进而 判断 这 个 点 是 否 能 够 取 最 小 值 。 但 是 ,在 实际 很 多 情况 中 ,很 难 求解 


出 使 函数 的 导数 为 0 的 解析 表达 式 , 这 时 就 可 
以 使 用 梯度 下 降 。 梯 度 下 降 法 的 含义 是 不 断 地 
itr A E BE H3 75 pu] 58 29m 8 26 V BH] B 381] 35 ER 2C EIS] DC 
EA. d: EHAK XXT A RA DU B 7r p 
下 降 是 最 快 的 方向 ,所 以 这 种 更 新 不 仅 合理 ,而 
且 很 有 效率 。 具 体 来 说 ,为 了 选取 一 个 0 并 且 使 
J(O) 最 小 ,首先 可 以 先 随 机 选择 0 的 一 个 初始 
值 ,然后 不 断 修 改 0 PAN J CO ,直到 0 的 值 不 
再 改变 ,其 过 程 如 图 9. 2 所 示 。 对 于 梯度 下 降 
法 ,可 以 表示 为 
3 J C8) 
90, 

HIA Br Hb [8] Eh FE P] S 3 r8] CH 7] c D HJ 
方向 ) 更 新 0, 最 终 使 得 J(0) 最 小 。 式 中 ,a 为 学 





0; *— 0; — a 





图 9.2 E TEREE 


J EE (Learning Rate) , 取 值 太 小 会 寻 致 迭代 过 慢 , 取 值 太 大 可 能 销 过 最 值 点 ,如 图 9. 3 
PEFR o 


RR 





局 部 最 
小 值 
误差 下降 


N 全 局 最 
小 值 


图 9.3 局 部 最 小 值 和 全 局 最 小 值 


梯度 下 降 得 到 的 结果 可 能 是 局 部 最 优 值 。 如 果 FCz) 是 凸 函数 , 则 可 以 保证 梯度 下 降 
得 到 的 是 全 局 最 优 值 . 


7 9.2 逻辑 回归 理论 推导 
9.2.1 ”人 逻辑 回归 理论 公式 推导 


9. 1 介绍 了 一 些 育 景 铺垫 知识 和 逻 竹 回归 的 思想 ,本 王 将 正式 推导 迎 辑 回归 自 法 。 
包括 模型 的 建立 .代价 函数 的 选择 及 利用 GD 推导 得 到 的 迭代 结果 。 首 先 , 假 设 有 一 个 线 


性 模型 ` 表示 为 : 


0 xo d- 0,21 d- Or, = DIO; = x (9. 2) 


其 中 VM —].Xcn XU, HII x—l|1.xi 2 3.*** vs I. 
根据 前 面 的 描述 ,逻辑 回归 是 利用 Sigmoid 函数 对 线性 输出 做 了 变换 ,因此 最 终 构造 
l 
ha (x)= g (Fx) = — 
这 个 值 表示 结果 取 1 的 概率 ,因此 对 于 输入 x 分 类 结果 为 类 别 1 和 类 别 0 的 概率 分 别 为 
P(y= 1|x;0)= h(x) 


(3.3) 


P(y=0|x;0)=1— h(x) (9. 4) 
合 在 一 起 其 实 就 是 伯 努 利 分 布 ,表示 为 : 
P(»|x:0)— (h;(x)»* QG—h(x)*» (3.5) 


这 就 是 模型 ,假设 知道 了 参数 9 ,给 定 一 个 输入 x, 根 据 预 测 模型 ,就 能 得 到 当前 样本 
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点 属于 两 个 类 的 概率 。 问 题 是 如 何 求解 8 ,显然 需要 定义 一 个 指标 来 衡量 9 的 表现 ,这 就 
是 代价 函数 。 利 用 最 大 似 然 法 ,对 于 一 个 具有 m 个 样本 的 训练 集 来 说 , 似 然 函 数 表示 为 ， 
Le» = [[P69 1x®°;0)= IT ao? )»»? (1—h,(x?))-7" — (9.6) 

对 数 似 然 丽 数 为 ， 
I0) = logL (0 ) = > ( y? logh, (x? )2- (1 — y? Jlogtl— Br ))) 9.7) 

最 合适 的 9 应 该 是 使 式 (9.7) 的 值 最 大 。 在 一 般 文 献 中 ,代价 函数 的 形式 为 : 
J (0) m L X7 Cost (ho (x" 49» 


E SÈ 2 y^ loghs (x'^ yF — y** )log(1— hs (x*" ) | (9. 8) 


RODERO. DIS -1/m ,而 一个 是 求 最 天 值 ,_ 个 是 求 最 小 值 ,因此 是 等 价 的 ,这 
就 是 逻辑 回归 代价 函数 的 由 来 。 有 了 代价 函数 ,算法 就 是 利用 梯度 下 降 寻 找 0 的 更 新 策 
上 略 。 根 据 前 面 的 介绍 : 


0; * -一 Ü; — a 
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d ane 1. ya 
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] ee? 3 
m + 14e 1 A ] 十 es Ox 


—g (x) 
PT — Jg) I (9. 10) 
因此 , 式 (9.9) 的 更 新 过 程 可 以 与 成 : 
0; :— 0; — a 1» (hA; (X? )— yr, QG —0,1,*,0) (9.11) 
因为 , 式 中 a 本 来 为 一 常量 ,所 以 1/m 一 般 会 省 略 , 所 以 最 终 的 更 新 过 程 为 : 
g, :— d. M (h, (X? yr a A G= mhla) (9.12) 
Ter 
式 中 ,a 为 迭代 步 长 ; ho (X”) 为 假设 集 在 第 i 个 样本 处 的 取 值 ; y ”为 真实 的 标签 值 。 


9.2.2 Wht 


式 (9.12) 有 用 的 是 流 处 理 的 形式 ,也 驶 是 说 每 次 只 能 更 新 的 一 个 维度 ,然后 利用 循 
Hi REO 。 这 种 形式 的 代码 实现 ,至 少 需要 用 到 两 层 for 循环 ,一 层 是 对 于 6 的 各 个 分 
量 ,一 层 是 对 于 样本 个 数 。 而 循环 往往 效率 很 低 。 因 此 有 必要 将 式 (9. 12) 改 写成 回 量 的 
形式 ,这样 不 仅 计算 效率 高 ,代码 也 会 变 得 很 位 滞 。 

为 了 回 量化 ,第 一 步 很 下 观 地 把 b 变 为 9 。 这 个 只 需要 把 x;“* 办 换 成 x” 即 可 。 结 来 
如 下 : 


— 6—« 2, (h (XÀ )— y? JE, ( — 0.1,***,n) (9. 13) 


这 里 的 > 是 - -个 求 和 的 过 程 , 显然 需要 一 个 for 语句 循环 mx 次 ,所 以 根本 没有 完全 


地 实现 问 量 化 。 为 了 去 反 求 和 符号 , 震 要 问 量 形式 的 表达 ,然后 利用 内 积 的 形式 计算 求 
和 。 因 此 先 对 样本 和 标签 同 量 化 , 即 . 


(15 Qo o0D (15 (15 
X Eo £] Un 
2 < ÇE) . [Z] (2) 
x' ) VM Æ] E. 
X — n g 
(m) (m) (m) (m) 
X n To n ri m T, m 
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y? | 
y — ; (9. 14) 
(m) 
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一 般 情 况 下 ,在 机 器 学 习 的 文章 中 ,约定 XX 的 每 一 行为 一 条 训练 样本 ,而 每 一 列 为 不 
同 的 特 称 值 。 待 求 取 的 参数 9 的 矩阵 形式 为 ， 


0 一 (9.15) 


用 4 表示 线性 输出 ,那么 有 : 


(D (D (1) (1) GF i a» 
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(2) (2) (2) (2) (2 (2) 
Co Xi p:n 由 二 
A — X + Ü o : [ ] — g 
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(9. 16) 
A e 了 过 Sigmoid 图 数 变换 后 就 得 到 预测 输出 ,预测 输出 和 真实 标签 的 


| g (AO — yD ) eO 
AG — yD) OD 
E cddii-4e|[f c LIF Lapis (9.17) 
| g (A? mu yo? ) | e? 
与 式 (9. 132 JH EE ,可 以 得 到 : 
0, 0, i x (2) T (m) 
() () | r (1) T (2) r (m) 
FL. —- 1 1 。 
0. 8, m a et r (m) | 
—0—o-X'- E (9. 18) 


所 以 , 综 上 所 属 ,为 了 得 到 癌 量 化 的 表达 ,只 需要 以 下 3 步 。 
(1) R A=X0. 

(2) 3K E=g(A)—y. 

(3) 求 9 :=0 —aX' E. H FX RRE X 的 转 置 。 


9.2.3 丈 辑 回归 算法 的 实现 步骤 


经 过 理论 推导 后 ,可 以 总 结 一 下 逻辑 回归 算法 的 实现 步骤 。 逻 辑 回归 算法 大 体 分 为 
3 个 步骤 , 即 准备 数据 训练 模型 和 应 用 模型 。 具 体 如 下 。 
CD 给 定 训练 集 X、 标 签 y. 终 止 条 件 e、 初 始 参数 9' EITEK a. 


" z » bs m 
e a 
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(2) 重复 以 下 步骤 
(D iF*€A-x, 
D il SE X28 .E— SigmoidCA) — y. 
D 更 新 9 .0..:—0,—oX E. 
D 比较 10 —0, | e 则 跳出 循环 ,执行 步骤 (3) ,否则 继续 循环 执行 步骤 (2)。 
(3) 预测 ,给 定 一 个 新 样本 xoew ;预测 P (yoew 1x, ) = Sigmoid (x, 8. 


9.2.4 Epp H E Dodd x 


逻辑 回归 的 优点 如 下 。 

d) 预测 结果 的 概率 为 0 一 1 。 

(2) 可 以 适用 于 连续 型 和 离散 型 变量 。 

(3) 容易 使 用 和 解释 。 

逻辑 回归 的 缺点 如 下 。 

CD 对 模型 中 日 变量 多 重 共 线 性 较为 敏感 ,如 两 个 高 度 相 关 日 变量 同时 放 入 模型 ,可 
能 导致 较 弱 的 一 个 自 变 量 回 归 符 号 不 符合 预期 ,符号 被 扭转 。 需 要 利用 因子 分 析 或 者 变 
量 聚 类 分 析 等 手段 来 选择 代表 性 的 自 变 量 , 以 减少 候选 变量 之 间 的 相关 性 。 

(2) 预测 结果 明 “S” 形 ,因此 从 log(odds) 向 概率 转化 的 过 程 是 非 线性 的 ,在 两 端 随 着 
log(odds) 值 的 变化 ,概率 变化 很 小 ,边际 值 太 小 ,斜率 太 小 ,而 中 间 概 率 的 变化 很 大 ,很 敏 
感 。 导 致 很 多 区 间 的 变量 变化 对 目标 概率 的 影响 没有 区 分 度 , 无 法 确定 阅 值 。 


9 9.3 逻辑 回归 算法 的 改进 


9.3.1 逻辑 回 归 的 正则 化 


正则 化 不 是 只 在 逻 己 回归 中 存在 , 它 是 一 个 通用 的 算法 和 思想 ,所 有 会 产生 过 拟 合 现 
象 的 异 法 虱 可 以 使 用 正则 化 来 避免 过 拟 合 。 一 般 来 说 ,防止 过 拟 合 可 以 从 两 方面 入 手 , 一 
是 减少 模型 复杂 度 ,二 是 增加 训练 集 样 本 数 ”。 而 正则 化 就 是 减少 模型 复杂 度 的 一 个 方 
法 。 一 般 通 过 在 目标 图 数 上 增加 一 个 惩 避 项 。 对 于 逻辑 回归 来 说 ,为 


J Cw) 一 一 u TURR I O TE | HAP Co) 


而 这 个 正则 化 项 一 般 会 采用 L 范 数 或 者 工 , 范 数 。 其 形式 分 别 为 
$(w)— lxlis Bw)= lxlls 
首先 ,针对 Li 范 数 (9) — | o | 2H OE FH EE. F EE 7; xXx Do 45 B by BR R 6E EL ER PR 


数 进行 求 导 ,正则 化 项 导致 的 梯度 变化 当 oe; 0 时 取 1, 当 ww 一 0 时 取 一 1。 因 此 当 ww 0 
时 ,w; 会 减 去 一 个 正 数 ,导致 w 减 小 ,而 当 o; 0 B] o; 会 减 去 一 个 负数 ,导致 w NEK, 
因此 这 个 正则 项 会 导致 参数 w 取 值 趋 近 于 0 ,也 就 是 为 什么 Li 正则 能 够 使 权重 稀 琉 , 结 
果 就 是 参数 值 受 到 控制 会 趋 近 于 0. L; 正则 还 被 称 为 Lasso Regularization. 
然后 针对 La 范 数 @G(o) 王 oo ,同样 对 它 求 导 ,得 到 梯度 变化 为 : 

- 般 会 通过 A/Zm 把 这 个 系数 2 消 掉 。 同 样 的 更 新 之 后 使 得 w 的 值 不 会 变 得 特别 
Ko EILA PE Lo 正则 称 为 权重 又 减 C(Weight Decay) ,在 回归 问题 中 ,关于 工 ; 1E 
则 的 回归 还 被 称 为 岭 回归 (Ridge Regression), 。 权 重 误 减 还 有 一 个 好 处 , 它 使 得 目标 函数 
变 为 凸 函数 ,梯度 下 降 法 和 拟 牛 顿 法 (L-BFGS) 都 能 收敛 到 全 局 最 优 解 。 


qj 


9.3.2. 主 成 分 改进 的 逻辑 回归 方法 


逻辑 回归 是 现今 进行 病因 分 析 、 生存 分 析 篆 用 的 多 元 统计 方法 。 但 在 逻辑 回归 中 的 
变量 筛选 及 参数 估计 ,都 要 求 各 自 变 量 之 间 相 互 独立 ,而 在 很 多 研究 中 各 自 变 量 之 间 并 不 
独立 ,而 是 相互 之 间 存 在 一 定 程度 的 线性 依存 关系 ,被 称 为 多 重 共 线性 (Multico 
Linearity) ,这 种 多 重 共 线性 关系 常会 增 大 估计 参数 的 均 方 误差 和 标准 误差 ,有 的 甚至 使 
回归 系数 的 方向 相反 ,导致 方程 极 不 稳定 ,从 而 引起 Logistic 回归 模型 拟 合 上 的 矛盾 及 
不 合理 。 采 用 主 成 分 分 析 产 生 若 干 主 成 分 ,它们 必定 会 将 相关 性 较 强 的 变量 综合 在 同 
一 个 主 成 分 中 , 而 不 同 的 主 成 分 又 是 互相 独立 的 。 只 要 多 保留 几 个 主 成 分 , 原 变 量 的 
信息 不 致 过 多 损失 。 然 后 ,以 这 些 主 成 分 为 自 变 量 进行 逻辑 回归 就 不 会 再 出 现 共 线 性 
的 困扰 3 。 

但 是 在 统计 学 领域 ,不 仅 需 要 得 到 好 的 模型 ,往往 还 特别 注重 模型 对 于 实际 情况 的 解 
释 性 。 主 成 分 能 够 包含 原始 自 变量 的 大 部 分 信息 (取决 于 特征 值 ), 但 是 常 不 好 解释 主 成 
分 的 含义 。 如 果 用 主 成 分 进行 逻辑 回归 建 模 ,即便 是 得 到 较 好 的 模型 ,也 不 好 用 来 解释 模 
型 的 实际 意义 。 因 而 也 可 以 选择 解释 性 更 好 的 逐步 回归 方法 或 者 因子 分 析 来 降 维 ,消除 


[9 9.4 ”逻辑 回归 的 MATLAB 实践 


由 于 逻辑 回归 属于 广义 的 线性 模型 (Generalized Linear Model Regression) ,因此 在 
MATLAB 中 通过 三 义 线性 模型 函数 glmfit 来 实现 。 对 于 glmfit 函数 的 调用 有 以 下 几 种 
Ji X. 
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b= glmfit(X,y,distr) 

b= glmfit(X,y,distr,paraml,vall,param?,val2,...) 
[b, dev] = glmfit(...) 

[b, dev, stats] = glmfit(...) 


其 中 ,X XS TEASAB PIE ERE nO p RONCH. n MER, ENER UB. p T BERE: y — 
般 情 况 是 一 维 回 量 ,表示 样本 标签 ,同时 ,也 可 表示 为 二 维 回 量 ; distr 表示 回归 时 回归 曲 
线 与 样本 之 间 偶 差 的 误差 分 布 ,相关 分 布 包括 正太 分 布 (Normal) fH 278] 27 48 (Binomial) , fl 
马 分 布 (Gamma) i% a Hra fp (Inverse Gaussian) HtA fp (Poisson); paraml 表示 可 设 
置 的 相关 参数 的 名 称 ; vall 表示 相关 参数 的 取 什 ; dev EIME fm 22 5 stats 表示 逻辑 回 
归 时 相关 的 统计 参数 ,是 一 个 结构 体 ,其 内 部 包含 各 种 与 统计 相关 的 参数 ,如 +t 统 计量 、 
p 检验 值 等 。 

下 面 通过 实例 来 了 解 广义 线性 模型 和 Logistic 回归 。 一 个 回归 模型 定义 了 因 变 量 y 
ATASE z 的 分 布 。 在 MATLAB 的 工具 箱 中 自 变 量 称 为 predictor, 因 变量 称 为 
response。 最 第 用 的 回归 模型 也 就 是 线性 回归 模型 ,将 y 建 模 为 一 个 正太 随机 变量 , 它 
的 均值 是 zx 的 线性 函数 ,方差 是 一 个 第 数 。 假 设 工 是 一 维 的 ,一 个 实例 如 下 (glml. m 
X dH 


ST ARER ”一 个 关于 线性 拟 合 的 简单 实例 
m= @(x)-1.9+0.23%# x; s 拟 合 方程 ,系数 分 别 是 -1.9 A 0.23 
x=5:0.1:15; 定义 作用 域 

yhat = mu(x); % 对 应 值 

$s 下面 的 代码 是 在 xX 的 茶 个 点 处 , 信 计 一 个 高 斯 模型 ,并 做 出 它 的 广义 高 斯 模型 
sdy 是 Y 的 变化 范围 ,上 是 中 位 数 

dy2-3.5:0.1:3.5; sz= size(dy); k= (length(dy) + 1)/2; 

$ xl 是 截断 点 ,zl 表示 在 x1 处 ,yl 取 不 同 值 的 概率 












xl= 7*ones(sz); YL=mufxl) + dy; z1 = normpdf( y1l,mu(x1),1); 
x2 = 10 * ones( sz); Y2=mu(x2) + dy; z2 = nornpdf( y2, mu(x2),1); 
x3 = 13 * ones( sz); y3 = mu(x3) + dy; z3 = normpdf( y3, mu( x3), 1); 
line = plot3(x, yhat,zeros(size(x)), 'b- ', .. 
| t gb kl, Ey XKIHEEID VIULIEEKIL IBS zlik) ES us. \ 
\ 2 'r- ', x2([k k]) , Y2([k k]), [0 z2(k) ], 'v:', ... | 
x3,y3,z3, r - ', x3([k k]), y3( [Dk k]), [0 z3(k) ], 'r: ); 

set(line, 'LineWidth', 2); | 
: zlim([0 1]); 

xlabel( 'X'); ylabel( Y'); zlabel( ' 概 率 密度 '); 
| grid on; view([ — 45 45]); 


本 例 是 为 了 说 明 线 性 模型 的 思想 。 总 的 来 说 假设 输出 y 是 均值 等 于 X'W ,方差 为 常 
数 的 高 斯 分 布 ,结果 如 图 9.4 所 示 。 





图 9.4 线性 回归 模型 的 实例 结果 


如 图 9.4 所 示 ( 详 见 文 前 彩 插 ) , 蓝 色 线 条 是 实际 的 回归 模型 ,可 见 它 是 关于 x 的 线性 
KA. ERA r= 处 ,y 可 以 有 多 个 值 ,如 红色 曲线 所 示 , 这 是 一 个 高 斯 分 布 ,但 是 y 最 
有 可 能 的 取 值 是 红色 曲线 和 蓝 色 线 的 交点 ,因为 此 时 概率 最 大 。 

对 于 一 个 广义 的 线性 模型 ,response 的 均值 经 过 了 一 个 非 线 性 变换 g(p tbir t). 
对 于 Logistic 回归 来 说 ,这 个 变换 就 是 Sigmoid 函数 ,其 中 g 的 道 函 数 称 为 Link 函数 。 
同时 y 也 可 以 是 其 他 分 布 ,如 二 项 分 布 和 泊 松 分 布 ,一 个 采用 泊 松 分 布 的 回归 问题 的 实 
例如 下 (glmegl. m X £F); 


* 答 拟 合 的 函数 ,指数 形式 ,所 以 link 采用 log 函数 
oM @ (x) exp( - 1.9 + 0.23* x); 
: s 产生 数据 集 
x25:0.1:15; 
( yhat = mu(x); 
: $% Æ x-7,10,13 处 ,YY 分别 取 不 同 的 值 , 画 出 他 们 的 泊 松 分 布 概率 
多 poisspdf(k，lambda) 表 示 y= ,参数 为 lambda 时 泊 松 分 布 的 概率 
) x177*o0nes(1,5); yl = 0:4; z1 = poisspdf(yl1,mu(x1)); 
| x2 = 10 * ones(1,7); y2= 0:6; z2 = poisspdf( y2, mu(x2)); 
x3 = 13* ones( 1,9); y37 0:8; z3 = poisspdf( y3, mu(x3) ) ; 
plot3(x, yhat,zeros(size(x)),'b- ', ... 
[xi; xl] [vyl; yll, [z1; zerostsize(yl))L'r—-", xl, yl zl, r.', ... 
[x2; x2], (y2; v2],[z2; zeros(size(v2)}], rr- ', x2, y2, Z2, €... on 
[x3; x31 [v3; y3L [23; zeros{size({y3)) L "E — ^, 33,93, 23, 'r. "Y; 


zlim([01]); 
xlabel('X'); ylabel('Y'); zlabel( ' 概 率 '); 
grid on; view([ — 45 45]); 
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本 段 代码 和 前 面 的 一 段 代码 很 相似 ,此 时 是 广义 线性 模型 ,对 于 线性 输出 做 了 指数 变 
化 ,结果 如 图 9.5 所 示 。 





图 9.5 广义 线性 模型 拟 合 指数 曲线 的 实例 


图 9.5( 详 见 文 前 彩 插 ) 中 蓝 色 曲 线 是 真实 的 函数 关系 y—e 7 777, h FR y 服 
从 泊 松 分 布 , 泊 松 分 布 是 离散 的 ,因此 在 图 9.5 中 用 一 系列 离散 的 火柴 棒 表 示 。 火 柴 棒 的 
长 得 代表 y 取 不 同 值 时 的 概率 。 如 图 9.5 所 示 , 当 y 位 于 真实 的 数值 范围 内 时 ,出 现 的 概 
率 较 大 。 下 面 的 实例 将 展示 如 何 拟 合 一 个 Logistic 回归 。 

实例 中 以 一 个 实际 的 应 用 问题 为 例 , 这 个 问题 是 为 了 对 建 模 车 辆 里 程 数 测试 中 出 现 
问题 的 比例 和 车 重量 之 间 的 关系 。 观 测 值 包括 车 重 、 和 车 的 数量 和 损坏 的 数量 。 原 始 数 据 
如 下 (CarData. m 文件 ) ,程序 输出 结果 如 图 9.6 所 示 。 


$6 一 系列 不 同 重量 的 车 

weight = [2100 2300 2500 2700 2900 3100 3300 3500 3700 3900 4100 4300]'; 
s 各 个 重量 类 型 的 车 的 数目 

tested = [48 42 31 34 31 21 23 23 21 16 17 21]; 

s 每 个 重量 的 车 辆 在 测试 中 fail HA% H 

failed- [12038 8 14 17 19 15 17 21]; 

s c po 

proportion = failed ./ tested; 

plot(weight, proportion, 's') 


和 


的 参数 P 该 如 何 变化 呢 ? 最 简单 的 想法 是 P 和 重量 呈 线 性 关系 。 利 用 线性 拟 合 
(Carglml. m 文件 ) ,得 到 拟 合 曲线 如 图 9.7 所 示 。 
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图 9.6 散 点 数据 


线性 拟 合 和 polyfit(x, yin) 执行 多 项 式 拟 合 ,n 代表 多 项 式 阶 数 , 5 n= 1 时 ,就 是 线性 关系 , 返 
和 回 多 项 式 系 数 

linearCoef = polyfit(weight,proportion,1); 

* value = polyval(p, x)jR 回 多 项 式 的 值 ,p 是 多 项 式 的 系数 ,降序 排列 

linearFit = polyval(linearCoef, weight); 

line = plot(weight, proportion, 's', weight,linearFit, r- ', [2000 4500],[0 0], 'k:', [2000 
45001.131 11]. "k: "Jr; 

xlabel( ' 重 量 '); ylabel('HE fj") ; 

set(gcf, 'Position', [100 100 350 280]); 

set(gca, 'FontSize', 9); 

set(line, 'LineWidth', 1.5) 
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图 9.7 线性 拟 合 
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如 用 使 用 上 面 的 模型 拟 合 数据 ,显然 有 两 个 问题 : 线性 拟 合 会 出 现 比 例 小 于 0 m 
大 于 1 的 情况 ,而 概率 只 能 是 [0,1] 区 间 的 数 ; 比例 值 不 是 正太 分 布 的 ,这 违背 了 线性 回 
归 模 型 的 假设 条 件 。 因 此 ,如 果 使 用 一 个 高 阶 多 项 式 可 能 会 解决 这 些 问题 。 多 项 式 拟 合 
程序 如 下 (CCarglmml. m 文件 ) ,输出 绪 果 如 图 9. 8 Bron. 

多 项 式 拟 合 名 这 段 代 码 和 线性 拟 合 很 相似 ， 区 别 仅仅 是 这 里 选用 3 阶 多 项 式 ,返回 的 stats 是 | 
& 一 个 结构 体 , 作为 polyval 函数 的 输入 | 
$ 可 用 于 误差 估计 ,ctr 包含 了 均值 和 方差 ,可 用 于 对 输入 xz 归 一 化 

[cubicCoef, stats,ctr] = polyfit(weight, proportion, 3); 

cubicFit = polyval(cubicCoef, weight, [ ], ctr); $ 利用 归 一 化 的 weight 进行 多 项 式 拟 合 

line = plot(weight, proportion, 's', weight, cubicFit, r- ', [2000 4500],[0 0], 'k:'', [2000 : 

4500], [1 1], 'k: '); : 

xlabel( ' 重 量 '); ylabel(' 比 例 '); 

set(gcf, 'Position', [100 100 350 280]); 

set(gca, 'FontSize', 9); 
set(line, 'LineWidth', 1.5) 


本 
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图 9.8 多 项 式 拟 合 


但 是 这 个 模型 依然 有 问题 。 由 图 9.8 可 以 看 出 当 和 车辆 重量 超过 4000 时 ， aoi 
降 了 , 当 重 量 继续 增加 时 ,比例 可 能 下 降 到 0 以 下 。 另 一 方面 ,正太 分 布 的 假设 依然 是 
合理 的 。 因 此 ,一 个 更 好 的 方法 是 利用 glmfit 来 拟 合 一 个 Logistic 回归 模型 。 ee 
回归 优 于 线性 回归 表现 在 两 方面 : 首先 Logistic 回归 中 的 Sigmoid 函数 将 输出 值 限制 在 
[0,1] 之 间 , 这 符合 本 问题 的 情况 。 其 次 ,Logistic 回归 采用 的 拟 合 方法 适用 于 二 项 分 布 。 
下 面 的 实例 展示 Logistic 回归 使 用 方法 (Catglmlog. m 文件 )。 
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% 利用 glmfit 拟 合 ,在 glmfit 中 一 般 response 是 一 个 列 向 量 ,但 是 当 分 布 是 二 项 分 布 时 ,y 可 以 
是 一 个 二 值 癌 量 ,表示 单 次 观测 中 成 功 还 是 失败 ,也 可 以 是 一 个 两 列 的 矩阵 ,第 一 列表 示 成 功 
的 次 数 ( 目 标 出 现 的 次 数 ), 第 二 列表 示 总 共 的 观测 次 数 , 因此 这 里 y= [failed, tested] 

外 另外 指定 distri = 'binomial', link= 'logit' 

[logitCoef,dev] = glmfit(weight, [failed tested], 'binomial', 'llogit'); 
% glmval 用 于 测试 拟 合 的 模型 ,计算 出 佑 计 的 Y 值 

logitFit = glmval(logitCoef,weight, 'logit'); 

line = plot( weight, proportion, 'bs', weight,logitFit, 'r- '); 
xlabel('Z Rh"); ylabel(' 比 例 '); 

set(gcf, 'Position', [100 100 350 280]); 


set(gca, 'FontSize', 9); 
set(line, 'LineWidth', 1.5) 
legend( ' 数 据 '，'logistic 回归 ') 





上 面 的 代码 中 ,主要 是 利用 广义 线性 模型 实现 Logistic 回归 。 计 算 后 结果 显示 如 
图 9. 9 所 示 。 


rn “数据 
Logistic 回 归 
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图 9.9 Logistic 回归 


拟 合 的 Logistic 模型 当 重 量 太 小 或 者 太 大 时 ,故障 率 要 么 无 限 接 近 0, 要 么 接近 1. 
meten er -个 合理 的 模型 。 现 在 有 了 这 个 模型 ， 

然 是 布 望 用 它 来 预测 采 个 重量 下 ,车辆 里 程 测 试 的 故障 率 。 下 面 的 程序 利用 模型 预测 
hae m 文件 ) ,相应 的 输出 结果 如 图 9. 10 所 示 。 
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外 模型 拟 合 ,返回 stats 是 一 个 结构 体 
[logitCoef,dev,stats] = glmfit(weight, [failed tested], 'binomial', 'logit'); 
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126 : 机 器 学 习 入 门 到 实战 一 -MATLAB 实 践 应 用 


normplot(stats.residp); 

s 这 里 测试 了 4 个 类 型 的 车 ,重量 分 别 是 2500 到 4000 

weightPred = 2500:500:4000; 

$ logitCoef 是 拟 合 出 的 模型 的 系数 。failedPred 是 预测 故障 的 车 辆 数 ,dlo 和 dhi 分 别 是 95% 
& 置信 区 间 的 下 限 和 上 限 

[ failedPred, dlo, dhi] = g1mval(logitCoef, weightPred, 'logit',stats,.95,100); 

line = errorbar(weightPred, failedPred, dlo, dhi, 'r:'); 





2500 3000 3500 4000 
图 9.10 预测 的 误差 


从 图 9. 10 中 可 以 看 出 , 当 车 重量 为 3000 时 ,测试 中 出 现 故 障 的 车 辆 数 约 为 30. 2 辆 。 
而 有 95% 的 概率 会 有 (30. 2— 7. 3,30. 2 十 8. 4) 辆 车 出 现 故 障 。 
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e 10.1 神经 网 络 算法 原理 


人 工 神 经 网 络 (Artificial Neural Networks. ANN) 也 简称 为 神经 网 络 (NN) 或 称 为 连 
接 模型 (Connection Model) , 它 是 一 种 模仿 动物 神经 网 络 行为 特征 ,进行 分 布 式 并 行 信息 
处 理 的 算法 数学 模型 。 这 种 网 络 依靠 系统 的 复杂 程度 ,通过 调整 内 部 大 量 结 点 之 间 相 互 
连接 的 关系 ,从 而 达到 处 理 信 息 的 目的 。 

神经 网 络 的 研究 内 容 相 当 厂 沁 , 反 映 了 多 和 学科 交叉 技术 领域 的 特点 。 主 要 的 人 研究 工 
作 集 中 在 以 下 儿 个 方面 。 

(OD 建立 模型 : 根据 生物 原型 的 研究 ,建立 神经 元 、 神 经 网 络 的 理论 模型 。 其 中 包括 
概念 模型 .知识 模型 物理 化 学 模型 .数学 模型 等 。 

(2) 算法 : 在 理论 模型 研究 的 基础 上 构建 具体 的 神经 网 络 模 型 ,以 实现 计算 机 模拟 
或 准备 制作 硬件 ,包括 网 络 学 习 算法 的 研究 ,这 方面 的 工作 也 称 为 技术 模型 研究 。 

(3) 应 用 : 在 网 络 模型 与 算法 研究 的 基础 上 ,利用 人 工 神经 网 络 组 成 实际 的 应 用 系 
统 ,如 完成 某 种 信 叶 处 理 或 模式 识别 的 功能 .构建 专家 系统 . 制 成 机 器 人 、 复 杂 系 统 控 
制 等 。 


10.1.1 神经 网 络 工 作 原 理 


人 工 神 经 网 络 是 由 大 量 的 简单 基本 元 件 ( 神 经 元 ) 相 互 连 接 而 成 的 目 适 应 非 线性 动态 
系统 。 每 个 神经 元 的 结构 和 功能 比较 简单 ,但 大 量 神经 元 组 合 产 生 的 系统 行为 却 非常 复 
杂 。 与 数字 计算 机 比较 ,人 工 神 经 网 络 在 构成 原理 和 功能 特点 等 方面 更 加 接近 人 脑 , 它 不 
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是 按 给 定 的 程序 一 步 一 步 地 执行 运算 ,而 是 能 够 月 身 适 应 环境 .总 绪 规 律 、 完 成 某 种 运算 、 
识别 或 过 程控 制 。 

人 工 神 经 网 络 首 先 要 以 一 定 的 学 习 准 则 进行 学 习 , 然 后 才能 工作 。 现 以 人 工 神 经 网 
络 对 手写 的 “A”“B” 两 个 大 写字 母 的 识别 为 例 进行 说 明 。 规 定 当 “A” 输 入 网 络 时 ,应 该 输 
出 “1”, 而 当 输 入 “B” 时 ,输出 为 .0”。 所 以 网 络 学 习 的 准则 应 该 是 : 如 果 网 络 做 出 错误 的 
判决 , 则 通过 网 络 的 学 习 , 应 使 得 网 络 减 少 下 次 犯 同样 错误 的 可 能 性 。 首 先 , 给 网 络 的 各 
连接 权 值 赋予 (0,1) 区 间 内 的 随机 值 ,将 “A” 所 对 应 的 图 像 模 式 输入 给 网 络 , 网 络 将 输入 
模式 加 权 求 和 ,与 门限 比较 、 表 进行 非 线 性 运算 ,得 到 网 络 的 输出 。 在 此 情况 下 ,网 络 输出 
为 “1” 和 “0” 的 概率 各 为 50% ,也 就 是 说 是 完全 随机 的 。 这 时 如 果 输 出 为 “1”( 结 果 正 确 )， 
则 使 连接 权 值 增 大 ,以 便 使 网 络 再 次 遇 到 “A” 模 式 输 入 时 ,仍然 能 做 出 正确 的 判断 。 如 果 
输出 为 “0”( 结 果 错 误 ), 则 把 网 络 连接 权 值 瑚 着 减 小 综合 输入 加 权 值 的 方 回 调整 ,其 目的 
在 于 使 网 络 下 次 再 遇 到 “A” 模 式 输入 时 , 减 小 犯 同 样 错 误 的 可 能 性 。 如 此 操作 调整 , 当 给 
网 络 轮 流 输入 者 干 个 手写 字母 “A”“B” 后 ,经 过 网 络 按 以 上 学 习 方 法 进行 大 干 次 学 习 后 ， 
网 络 判 断 的 正确 率 将 大 大 提高 。 这 说 明 网 络 对 这 两 个 模式 的 学 习 已 经 获得 了 成 功 , 它 已 
将 这 两 个 模式 分 布地 记忆 在 网 络 的 各 个 连接 权 值 上 。 当 网 络 再 次 遇 到 其 中 任何 一 个 模式 
时 ,能 够 做 出 迅速 ,准确 的 判断 和 识别 。 一 般 说 来 ,网 络 中 所 含 的 神经 元 个 数 越 多 , 则 它 能 
记忆 ,识别 的 模式 也 就 越 多 ，。 

决定 神经 网 络 模型 性 能 的 三 大 要 素 为 : 神经 元 (信息 处 理 单元 ) 的 特性 ; 神经 元 之 间 
相互 连接 的 形式 一 一 拓扑 结构 ; 为 适应 环境 而 改善 性 能 的 学 习 规 则 。 


10.1.2 神经 网 络 的 特点 


人 工 神 经 网 络 具 有 一 定 的 目 适 应 与 目 组 织 能 力 。 在 学 习 或 训练 过 程 中 改变 突 触 权重 
值 ,以 适应 周转 环境 的 要 求 。 同 一 网 络 因 学习 方 式 及 内 容 不 同 可 具有 人 不同 的 功能 。 人 工 
昼 经 网 络 是 一 个 具有 学 习 能 力 的 系统 ,可 以 发 展 知识 ,以 致 超过 设计 者 原 有 的 知识 水 平 。 
通 第 , 它 的 季 习 训练 方式 可 分 为 两 种 ,一 种 是 有 监督 (或 称 为 有 了 叶 师 的 等 习 ), 这 时 利用 给 
定 的 样本 标准 进行 分 类 或 模仿 ; 万 一 种 是 无 监督 学 习 ( 或 称 为 无 导师 学 习 ) ,这 时 ,只 规定 
学 习 方 式 或 共 些 规则 , 则 具体 的 学 习 凡 容 随 系 统 所 处 环境 ( 即 输入 信号 情况 ) 而 异 , 系 统 可 
以 目 动 发 现 环境 特征 和 规律 性 ,具有 更 近似 人 脑 的 功能 。 

沁 化 能 力 指 对 没有 训练 过 的 样本 ,有 很 好 的 预测 能 力 和 控制 有 能力。 特别 是 , 当 存 在 一 
些 有 了 噪声 的 样本 ,神经 网 络 具备 很 好 的 预测 能 力 。 

当 系 统 对 于 设计 人 员 来 说 ,很 透彻 或 者 很 消 杷 时 , 则 一 般 利 用 数值 分 析 , 信 微分 方程 
等 数学 工具 建立 精确 的 数学 模型 ,但 当 对 系统 很 复杂 ,或 者 系统 未 知 ,系统 信息 量 很 少 , 建 
立 精 确 的 数学 模型 很 困难 时 ,神经 网 络 的 非 线 性 映射 能 力 则 和 表现 出 优 免 ,因为 它 不 需要 对 
系统 进行 透彻 的 了 解 ,但 是 同时 能 达到 输入 与 输出 的 映 映 和 关系, 这 就 大 大 侧 化 了 设计 的 
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功能 的 模拟 角度 上 看 ,神经 网 络 也 应 具备 很 强 的 并 行 性 。 


10.1.3 人工 神经 元 模型 


神经 元 及 其 突 触 是 神经 网 络 的 基本 豆 件 。 因 此 ,模拟 生物 神经 网 络 应 首先 模 拟 生物 
俐 经 元 。 在 人 工 神 经 网 络 中 ,神经 元 第 秘 称 为 “人 处理 单元 "。 有 时 从 网 络 的 观点 出 发 第 把 


它 称 为 " 绪 点 ”。 人 工 神 经 元 是 对 生物 神经 元 的 一 种 形式 化 质 述 。 


如 图 10. 1 所 示 的 是 典型 的 人 工 神 经 元 模型 ,通常 被 称 为 MP 模型 。 它 有 3 个 基本 要 


条 ,分别 是 连接 权 、 求 和 单元 和 激活 病 数 。 
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图 10.1 人 工 神经 元 模型 


其 中 ,wwii 代表 神经 元 与 神经 元 i 之 间 的 连接 强度 (模拟 生物 神经 元 之 间 突 触 连 接 
强度 ) , 称 为 连接 权 ; wi 代表 神经 元 的 活跃 值 , 即 神 经 元 状态 ; ys 代表 神经 元 的 输出 , 即 
下 一 个 神经 元 的 输入 ; p. 代表 神经 元 的 输入 ; 0, 代表 神经 元 & 的 国 值 ; 上 表达 了 神经 元 
的 输入 输出 特性 ,常见 的 激活 函数 有 双 曲 正切 函数 tanh() 与 Logistic OO PR ZI, 

人 工 神 经 网 络 是 一 个 并 行 和 分 布 式 的 信息 处 理 网 络 结 构 , 该 网 络 结 构 一 般 由 许多 个 
神经 元 组 成 ,每 个 神经 元 有 一 个 单一 的 输出 , 它 可 以 连接 到 很 多 其 他 的 神经 元 ,其 输入 有 
多 个 连接 通路 ,每 个 连接 通路 对 应 一 个 连接 权 系 数 。 

所 以 ,人 工 神经 元 的 输入 输出 关系 为 


yi = f Zuzia (10.1) 
、 1—1 Fi 


为 了 更 耳 观 地 了 解 神经 网 络 的 特点 ,下 面 举例 说 明 。 如 图 10. 2 所 示 , 设 oi 、 zz 、Zs、 
a4 为 神经 网 络 输 人 . 经 神经 元 N; N:e N, Ni 的 输出 分 别 为 xi E X3 x ,然后 经 过 连接 
权 Wij 连接 到 yi y ys 4 E] 4, gg ,进行 办 加 o 为 向 单 起 见 dx d; = () ;由 有 


HH; — 2 wg, (10. 2 ) 
j=l 


H E A EAR s A AS A pt T d R Hb E ER s EH FA RT VA. E EST ft 26 558 . EA 
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10.2 输入 输出 连接 


(10. 3) 


XA g=- JETE, Hr majal c; ZETA RR LAS IB » 
向 量 —0.—1.—1.07 表示 眼睛 看 到 花 ,段子 闻 到 花香 的 感知 输入 ,从 x! Ry! 可 通 


过 一 个 连接 矩阵 得 到 
一 0. 25 
一 0. 25 
ads 25 
F0 Zh 
由 式 (10. 2) 与 式 (10. 3) 可 得 


W = 


经 计算 得 到 


4 9. 25 
2: s 
— 0. 25 
— 0. 25 


T 0. 25 
-r 0. 25 
—14.25 
— 0. 29 


yl mE f(W; Jr? 


— 0. 25 
— 0. 25 
T 0. 25 
T 0. 25 


(10. 4) 


a a e aa a a 
这 表明 神经 网 络 决策 za 为 一 朱 花 。 可 以 看 出 y 不 是 串 行 计 算得 到 的 ,因为 W 
是 在 硬件 实现 时 可 以 用 一 个 VLSI 中 的 电阻 矩阵 实现 ,而 w = /Kui) 也 可 以 用 一 个 简单 运 
算 放 大 器 来 模拟 ,不 管 z! My. 维 数 如 何 增加 ,整个 计算 只 用 了 一 个 运算 放大 器 的 转换 时 


间 ,显然 网 络 的 动作 是 并 行 的 。 


如 有 条 假设 ,z = 二 [ 一 1, 十 1, 一 1, 十 1」 Xo HR BS A ER . 09 T 18] 91 SEE R A RC EE JT 


输入 ,通过 矩阵 
[1:09.25 
— AT 
— 10.25 
19.25 
AU 


—10. 23 
T 3. 223 
4. 25 
—1. 43 


45.5 
— 0. 25 
— 0. 25 
十 0.25 


-0a 
TUAS 
TOAS 
— 0. 25 


经 计算 得 到 
只 一 [一 1 十 1 十 1 一 1 
这 表明 神经 网 络 决策 z 为 苹果 。 从 上 面 两 个 权 和 矩阵 W， 和 W， 中 ,并 不 知道 其 输出 
结果 是 什么 。 从 局 部 权 的 分 布 也 很 难看 出 W 中 存储 了 什么 ,将 W! Um ws 相 加 ,得 到 一 组 
新 的 权 和 矩阵 


0 0 0,5 —46:5] 
—5n.5 B. 3 0 0 
W — Wi; +W., —: 
0 0 -05  À 0.5 
lo =i 0 0 


由 x 输入 ,通过 权 答 阵 W 运算 可 得 到 y ,由 输入 ,通过 权 窒 阵 W a An fay”, 
这 说 明 峡 存储 了 两 种 信息 ,当然 也 可 以 存储 多 种 信息 。 
如 人 果 感 知 表 中 某 个 元 件 损坏 了 一 个 , 设 第 三 个 元 件 损坏 , 则 
zs-—II.—1.l1l* 
经 W 计 算 ,y 二 [一 1, 一 1, 十 1, 十 1 。 这 与 之 前 的 计算 结果 一 致 ,说 明 人 工 神经 网 
络 具 有 一 定 的 容错 能 力 。 


Ð 10.2 前 向 神经 网 络 


前 癌 神 经 网 络 包括 输入 层 、 隐 层 ( 一 层 或 多 层 ) 和 输出 层 , 如 图 10. 3 所 示 为 一 个 三 
层 网 络 。 这 种 网 络 的 特点 是 ,只 有 前 后 相 邻 两 层 之 间 的 神经 元 相互 连接 ,各 神经 元 之 
间 没 有 反馈 。 每 个 神经 元 可 以 从 前 一 层 接收 多 个 输入 ,并 且 只 有 一 个 输出 给 下 一 层 的 
神经 元 。 





图 10.3 前 向 神经 网 络 


10.2.1 感知 器 


感知 大 是 一 种 早期 的 神经 网 络 模 型 ,由 美国 学 者 fF. Rosenblatt 于 1957 年 提出 。 感 
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知 希 中 第 一 次 引入 了 学 习 的 概念 ,使 人 脑 所 具备 的 学 习 功 能 在 基于 符号 处 理 的 数学 模型 
中 得 到 了 一 定 程度 的 模拟 ,所 以 引起 了 广泛 的 关注 。 
感知 需 是 最 简单 的 前 向 神经 网 络 ,主要 用 于 模式 分 类 ,其 模型 如 图 10.4 所 示 。 
感知 硕 处 理 单元 对 半 个 输入 进行 加 权 和 操作 , 则 
输出 为 : 


y= (Xn? (10.5) 


A Potit: rt, JEA n TA; Wot, 

图 10.4 单 层 感知 化 模型 ws 为 与 输入 相对 应 的 ?个 连接 权 信 ;0 为 国 值 ; 

f£ OO BS ERR S y 为 单 层 感知 需 的 输出 。 单 层 感知 

需 可 将 外 部 输入 分 为 两 类 。 例 如 , 当 感 知 需 的 输出 为 十 1 时 ,输入 属于 类 ; 当 感 知 器 的 

得 出 为 一 1 时 ,输入 属于 总 类 ,从 而 实现 两 类 目标 的 识别 。 在 二 维 空间 中 , 单 层 感知 天 进 
行 分 类 的 判决 超 平面 由 下 式 决 定 : 





> wiz: +b = 0 (10. 6) 


对 于 只 有 两 个 输入 的 判别 边界 是 直线 ,如 
XX C10. 70 ,选择 合适 的 学 习 算 法 可 训练 出 满意 的 
wi 和 rws ,如 图 10. 5 所 示 。 当 它 用 于 超过 两 类 模式 ES | 
的 分 类 时 ,相当 于 在 高 维 样本 空间 中 ,用 一 个 超 平 | 9" $3. * 
面 将 两 类 样本 分 开 。 

wizi F wz: +b = 0 (10. 7) | 

通过 以 下 实例 来 进一步 理解 单 层 感知 器 学 习 a “、 判别 边界 
算法 ,构建 一 个 神经 元 , 它 能 实现 逻辑 与 操作 ,其 真 — 
值 表 ( 训 练 集 ) 如 表 10. 1 所 示 , 输 入 在 二 维 坐 标 上 图 10.5 判别 边界 实例 
的 表示 如 图 10. 6 所 示 。 





表 10.1 逻辑 与 操作 真 值 表 


一 一 G2 BS — 
- - c 


| 


假设 阔 值 为 一 0.8 39] A8 XE BEIC] JJ 0.1.2 2J S 7 为 0.6, 误 差 值 要 求 为 0, 神 经 元 
H3 d I BR 2 7 e BR S PLC H Cx CS] 10. 70 ,其 表达 式 如 式 (10. 9) 所 示 , 以 此 来 求 取 权 值 


wW 4 TWWo o 
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0 
图 10.6 样本 二 维 分 布 图 图 10.7 和 硬 限 幅 函数 HG) 


K 10.1 的 每 一 行 都 代表 了 一 个 训练 样本 ,对 于 样本 1, 神 经 元 的 输出 为 : 
y^1C€0 — Hfw 1^1(0x 10) Fa 2^1(00x 20 十 站 


= H(5.1X0--0.,1:0—0.5 —40 (10. 8) 
l x 

H(x) = (10.9) 
0 二 过 从 


wi(l) = wi (0) + nd — y (0))zi = 0.1 (10.10) 
ws(1) = w (0) + nd — y' (0))zs = 0.1 
对 于 样本 2, 神 经 元 的 输出 为 : 
y! CD = Hjwel) 4-wlO)02z OD 4-5) 
= H(0.1X04-0.1X1—0.8) —0 (10.11) 
wi (2) = wi OD + (d — y! (Da — 0.1 (10. 12) 
w;(2) = wiOD- nd —y Ox = 0. 1 
[5] 38 ,对 于 样本 3 ,并 不 修改 权 值 。 对 于 样本 4, 神 经 元 的 输出 为 : 
y'(3)= HiwiGOoaxi G2 + wl (3)zx2s (3) 4 5j 
= H(0.1X140.1X1—0.8) —0 (10. 13) 
wi 4D — wi QD ey — 0.7 (10. 14) 
vw; -— wiQG)- (d — y G)x —0.7 
此 时 完成 一 次 循环 过 程 ,由 于 误差 没有 达到 0, 返 回 第 二 步 继续 
循环 ,在 第 二 次 循环 中 ,前 三 个 梓 本 输入 时 因 误 差 均 为 0, 有 所 以 没有 
对 权 值 进行 调整 ,各 连接 权 值 仍 保持 第 一 次 循环 的 最 后 值 ,第 四 个 
样本 输入 时 ,y (3) 二 1, 因 此 误差 为 0, 但 权 值 并 不 会 调整 ,最 终 的 权 
EXN w 二 ws 二 0.7, 能 达到 分 类 的 效果 ,如 图 10. 8 所 示 。 
综 上 所 述 ,感知 器 的 学 习 算 法 可 总 结 为 以 下 几 步 。 
(1) 确定 激活 函数 FCD. 
(2) 给 wo(C0) 及 国 值 0 分别 赋予 一 个 较 小 的 非 零 随机 数 作为 初 值 。 
(3) 输入 一 个 样本 X nom ,… ,x,} 和 一 个 期 望 的 输出 d. 





图 10.8 分 类 效果 
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(4) 计算 网 络 的 实际 输出 : 
yt) = (Èw (1)x; -0 (10. 15) 


(5) 按 下 陈 调 整 权 值 : 
wat D = wt) yd — y Dz: 
式 中 ,7 为 学 习 率 常数 , 且 90. 
(6) 转 至 步骤 (3) ,直到 rw 对 所 有 样本 都 稳定 不 变 为 止 。 
感知 带 在 形式 上 与 MP 模型 差不多 ,它们 之 间 的 区 别 在 于 神经 元 之 间 连 接 权 的 变化 。 
感知 带 的 连接 权 定 义 为 可 变 的 ,这 样 感 知 请 驶 被 赋 子 了 学 习 的 特性 。 如 且 在 输入 层 和 和 输 
出 层 之 间 加 上 一 层 或 多 层 的 神经 元 ( 隐 层 神经 元 ) ,就 可 构成 多 层 前 回 网 络 ,这 里 称 为 多 层 


10.2.2 BP 算法 


多 层 网 络 的 学 习 能 力 比 单 层 感知 器 增强 了 很 多 。 欲 训练 多 层 网 络 ,需要 更 强大 的 学 
习 算 法 。 误 差 逆 传播 (Error Back Propagation. BP) 算 法 束 是 其 中 最 杰出 的 代表 , 它 是 迄 
今 最 成 功 的 神经 网 络 学 习 算 法 ,现实 任务 中 使 用 神经 网 络 时 ,大 多 是 在 使 用 BP 算法 进行 
训练 。 值 得 指出 的 是 ,BP 算法 不 仅 可 用 于 多 层 前 馈 神 经 网 络 , 还 可 用 于 其 他 类 型 的 神经 
网 络 ,如 训练 递归 神经 网 络 。 但 通常 说 BP 网 络 时 ,一 般 是 指 用 BP 算法 训练 的 多 层 前 馈 
神经 网 络 …… ,三 层 BP 神经 网 络 结构 图 如 图 10. 9 所 示 。 


Es 


^ i 
fi fi 
Á A 





图 10.9 三 层 BP 神经 网 络 结 构图 


1986 年 ,Rumelhart 和 McCelland 领导 的 科学 家 小 组 在 《并 行 分 布 式 处 理 》 一 书 中 ， 
对 神经 网 络 算法 进行 了 详尽 的 分 析 , 实 现 了 关于 多 层 网 络 的 设想 。 算 法 的 基本 思想 是 ,学 
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习 过 程 由 信号 的 正 回 传播 与 误差 的 反 回 传播 两 个 过 程 组 成 。 正 回 传 播 时 ,输入 样本 从 输 
人 人 层 传人 ,经 过 各 隐 层 逐 层 处 理 后 , 传 回 输出 层 。 寿 输出 层 的 实际 输出 与 期 望 的 输出 不 相 
等 , 则 转 到 误差 的 反 回 传播 过 程 。 误 差 反 回 传 播 是 将 输出 误差 以 某 种 形式 通过 隐 层 和 逐 层 
反 传 ,并 将 误差 分 挫 给 各 层 的 所 有 神经 元 ,从 而 获得 各 层 神 经 元 的 误差 信号 ,此 误差 信号 
即 作 为 修正 各 神经 元 权 值 的 依据 。 这 种 信和 号 正 问 传 播 与 误差 反问 传播 的 各 层 权 值 调整 过 
程 , 是 周而复始 地 进行 的 。 权 值 不 断 调 整 的 过 程 ,也 就 是 网 络 的 学 习 训 练 过 程 。 此 过 程 一 
耳 进 行 到 网 络 输 出 的 误差 减少 到 可 接受 的 程度 ,或 进行 到 预先 设 定 的 学 习 时 间 ,或 进行 到 
预先 设 定 的 学 习 次 数 为 止 。 

如 图 10. 9 所 示 , 输 入 层 由 nn 个 神经 元 组 成 ,x;(i 二 1,2,…,n) 表 示 其 输入 亦 即 该 层 的 
输出 ; 隐 层 由 9g 个 神经 元 组 成 ,z, (k= 二 1,2,…,g) 表 示 隐 层 的 输出 ; 输出 层 由 m 个 神经 
元 组 成 ,y;(j 二 1,2,…,m) 表 示 其 输出 ; 用 vi GP 1.2, on; k 1.2, D RIS M AX 
层 到 隐 层 的 连接 权 ; 用 wua(k—1525775,9; 1 一 1,2,…,7) 表 示 从 隐 层 到 输出 层 的 连 
接 权 。 

隐 层 与 输出 层 的 神经 元 的 操作 特性 表示 为 : 

d) 隐 层 : 输入 ( 含 国 值 0) 与 输出 分 别 为 : 


S, = ». Uk S .FL, 
t—ü 


(10. 16) 
之 一 JUS 
(2) 输出 层 : 输入 ( 含 国 值 w ) 与 输出 分 别 为 : 
5; m >X wa * ZĘ 
k=0 (10. 17) 


ae 7 FLS 
激活 图 数 f(*) 设 计 为 非 线 性 的 输入 -输出 关系 ,一 般 选 用 下 面 形式 的 Sigmoid 函数 
GA RJ S 函数 ,如 图 10. 10 所 示 ): 


> 
]c-e* 


式 中 ,系数 4 决定 看 S 图 数 奈 缩 的 程度 。 

S PRX BU EE: 它 是 有 上 、 下 界 的 ; 它 是 单调 增长 的 ; € 
是 连续 光滑 的 , 即 是 连续 可 微 的 。 它 可 使 同一 网 络 既 能 处 理 
小 信号 ,也 能 处 理 大 信号 ,因为 该 图 数 中 区 的 高 增益 部 分 解 
决 了 小 信号 震 要 马 放 大 倍数 的 问题 ; 而 两 侧 的 低 增 益 区 正好 
适 于 处 理 大 的 兆 输 入 信号 。 这 正 像 生物 神经 元 在 输入 电 平 范围 很 大 的 情况 下 也 能 正常 工 

Rumelhart 等 为 BP 网 设计 了 依据 反问 传播 的 误差 来 调整 神经 元 连接 权 的 学 习 算 法 ， 
有 效 地 解决 了 多 层 神经 网 络 的 学 习 问 题 。 该 算法 的 基本 思路 是 : 当 给 网 络 提 供 一 个 输入 


f(s) = (10.18) l 
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模式 时 ,该 模式 由 输入 层 传送 到 隐 层 ,经 隐 层 神经 元 作用 函数 处 理 后 传送 到 输出 层 , 再 经 
由 输出 层 神经 元 作用 图 数 处 理 后 产生 一 个 输出 模式 。 如 果 输 出 模式 与 期 望 的 输出 模式 有 
误差 ,就 从 输出 层 反 加 将 误 善 逐 层 传送 到 输入 层 , 把 误差 分摊 ?给 各 神经 元 并 修改 连接 
权 ,使 网 络 实现 从 输入 模式 到 输出 模式 的 正确 映射 。 对 于 一 组 训练 模式 ,可 以 逐个 用 训练 
模式 作为 输入 ,反复 进行 误差 检测 和 反问 传播 过 程 , 耳 到 不 出 现 误差 为 止 。 这 时 ,BP 网 络 
完成 了 学 习 阶 段 , 具 备 所 需 的 映射 能 力 。 

BP 网 络 的 学 习 算 法 采用 的 是 Delta 学 习 规 则 , 即 基 于 使 输出 方差 最 小 的 思想 而 建立 
的 规则 。 设 共有 PP 个 模式 对 (一 组 输入 和 一 组 日 标 输出 组 成 一 个 模式 对 ) , 当 第 已 个 模式 
作用 时 ,输出 层 的 误差 函数 定义 为 : 


D3 m (10. 19) 


AHF, Op t) ”为 输出 层 第 j 个 神经 元 在 模式 p 作用 下 的 实际 输出 与 期 望 输 出 之 
差 的 平方 。 当 然 , 式 (10. 19) 并 不 是 误差 函数 的 唯一 形式 。 定 义 误差 义 数 的 原则 是 , 当 
yj, 二 ty 时 ,EE, 应 为 最 小 。 

E AARETE 


E— 2E, - : 19 y 一 (10. 20) 


对 任意 两 个 神 姓 Re 根据 梯度 下 降 
原理 ,对 每 个 w; WIZEN I8] 2g E 的 困 效 柳 度 的 反方 回 为 : 


























P aE, 
à pl —— ( 
Pug 之 1 Jan (10. 21) 
式 中 ,7 为 步 长 ,又 称 为 学 习 率 或 学 习 参数 。 具 体 学 习 算 法 的 解析 式 为 
F | 
, IF ca 
m > rM 3 Ze A --3M X (10, 22) 
g teg p=1 4 NU. 
对 于 输出 层 
JE, | 
AU, = o. (10. 23) 
k 一 1 20 4 = l.2,:.m 
依据 定理 ,有 
9E, 9E, 9S; 
JU; 95; IW (10. 24) 
定义 
|... 9E, i 
Oy 2S, (10. 29) 
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式 (10. 25) 称 为 误差 信号 项 。 由 式 (10. 17) 得 : 
dS. 
s M (10. 27) 
QT 和 
此 时 ,有 
JE 
zi 一 一 入 jx (10. 28) 
UU 
则 对 于 输出 层 
Aw; — nóyzy = yt; — Iaf 4 CS;) (10, 29) 
同 理 ,对 隐 层 有 
Au, = WOT (10. 30) 
其 中 ， 
— 9E, v. 
Ôg = JS, (10. 31) 


下 面 对 6 的 表达 式 进 行 推 导 。 输 出 层 的 7 单元 的 滔 输 入 S; H ZU ÉL ; BUS Hi s 
但 隐 层 单元 的 净 输 入 S, 影响 到 上 ,的 每 一 个 组 成 分 量 ( 因 为 & 的 输出 x, 连 至 输出 层 的 
所 有 单元 )。 

按 链 规则 , 式 (10. 31) 可 写成 



































., SB; JE, dza — 
Ôg 一 JS, = des dis ( 10. 32) 
X C10. 32) 中 的 第 一 项 可 表示 为 
JE : T. | > = P 
dz TER 2 Pe ici dz, 
其 中 , 式 (10. 32) 中 的 第 二 项 可 表示 为 
dz T ya FE eum o^ r 
2s, — OB — Jf 0) (10, 34) 
T: E E: FH eR R HS a AT o 
按 链 定理 有 
dy; dy; 95; 9S; fast 
Az, z IS; Iz, F6 dz, (10. 35) 
Tí ox C10. 35) AL 3X C10. 332 £8 
SEL Aizo pp a 
2; De 37 (10, 36) 
考虑 到 式 (10. 260 及 
AP, 
RS 2 
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A MES (10. 37) 
Iza 
式 (10. 36) n] 5 Jy 
JE z 9 d 
zi 一 一 > (yy 一 t; E ai (Sp) = 一 一 2; OT jz (10. 38) 
之 下 j=] 
将 式 (10. 38 及 式 (10. 34) 代 入 式 (10. 32) ,和 Ms 单元 的 误差 信 FAN: 
o 0E, di. 8 . luus ] 
Ó 2S, ms (È Ó yj W jk Jeso (10. 39) 
把 式 (10. 39) fL AX C10. 30) , 则 得 隐 层 各 神经 元 的 权 值 调整 公式 为 : 
Au, = hati = (2 b3 ] bywa fA = (10. 40) 
当 神 经 元 的 作用 图 数 取 Sigmoid 78 pR ZCISE , 1E H PR A AI FRU J 
AEA = g (] — z) (10. 41) 


将 式 (10.41) 代 入 式 (10. 29) 与 式 (10. 40), 则 无 须 复 杂 的 微分 过 程 而 可 直接 求 出 输出 
E ER, 

里 , 权 的 修正 是 采用 批 处 理 的 方式 进行 的 ,也 就 是 在 所 有 样本 输入 后 ,计算 其 总 的 
ee 采用 批 处 理 可 以 保证 其 方 回 减 小 ,在 样本 数 较 多 时 , 它 
比分 别处 理 的 收敛 速度 快 。 

在 BP 网 络 中 ,信号 正 回 传播 与 误差 逆 回 传播 A MORAN 
地 进行 的 。 权 值 不 断 修改 的 过 程 , 也 就 是 网 络 的 学 习 ( 或 称 训 练 ) 过 程 。 此 过 程 一 直 进 
到 网 络 和 输出 的 误 善 逐渐 减少 到 可 接受 的 程度 或 达到 设 定 的 学 习 次 数 为 止 。 

学 习 完 成 后 ,网 络 可 进入 工作 阶段 。 当 待 测 样本 输入 到 已 学 习 好 神经 网 络 输入 端 时 ， 
根据 类 似 输入 产生 类 似 输 出 的 原则 ,神经 网 络 按 内 搬 或 外 延 的 方式 在 输出 端 产 生 相 应 的 
了 映射 。 

图 10. 11 给 出 了 BP 算法 的 流程 图 2 。 下 面 通过 实例 来 体会 BP 算法 的 计算 流程 。 
如 图 10. 12 所 示 的 是 三 层 神经 网 络 结构 图 。 


对 于 输入 层 : Err; —y;(1— y;) CT; — 5) 

NW TIE. Err; = y;(1— yj) > Err,w ;z 
E 

权 值 变化 量 : Aw; — (D Errjy; 

权重 更 新 : QU. t 36. T Aw; 

fi [8] 28 4I, E : A0; = CO Err; 

fi [8] EEG : 0; —0; - A0; 


式 中 ,Err 为 误差 ; y 为 输出 ; T, 为 期 望 的 输出 ; 0; WHATA; / 为 学 习 率 。 
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给 定 网 络 初始 权 值 









前 入 第 一 个 模式 


计算 各 层 响应 及 输出 误差 
对 于 网 络 施加 
下 一 个 模式 
P 
计算 大 





全 部 模式 都 作用 完 ?3 


学 习 次 数 +1 


误 美 达到 要 求 (或 
学 习 次 数 达 到 )? _ 





图 10.12 三 层 神经 网 络 结 构图 
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人 10.3 基于 神经 网 络 的 算法 拓展 


10.3.1 深度 学 习 


深度 学 习 (Deep Learning? BJ BE s Ze FH A 4 EAE ZX Geoffrey Hinton 等 于 2006 年 和 
2007 4E XE(Sciences) F E de B Xc dt E de MAE. TREE E 0J JE DL aR ^E 2J Br XC. 
试图 使 用 包 合 复杂 结构 或 由 多 重 非 线性 变换 构成 的 多 个 处 理 层 对 数据 进行 局 层 抽 旬 的 
算法 。 

诬 度 学 习 是 机 兹 学 习 中 的 一 种 基于 对 数据 进行 表征 学 习 的 方法 。 观 测 值 (如 一 幅 图 
像 ) 可 以 使 用 多 种 方式 来 表示 ,如 每 个 像素 强度 值 的 癌 量 ,或 者 更 抽象 地 表示 成 一 系列 边 、 
特定 形状 的 区 域 等 。 而 使 用 某 些 特定 的 表示 方法 更 容易 从 实例 中 学 习 任 务 ( 如 人 脸 识 别 
或 面部 表情 识别 )。 首 度 学 习 的 好 处 是 ,用 非 监 督 式 或 半 监 督 式 的 特征 学 习 和 分 层 特征 提 
取 高 效 算 法 来 蔡 代 手工 获取 特征 。 

表征 学 习 的 目标 是 寻求 更 好 的 表示 方法 并 创建 更 好 的 模型 来 从 大 规模 未 标记 数据 中 
学 习 这 些 表示 方法 。 表 达 方 式 类 似 神 经 科学 的 进步 ,并 松散 地 创建 在 类 似 神经 系统 中 的 
信息 处 理 和 通信 模式 的 理解 上 ,如 神经 编码 ,试图 定义 拉动 神经 元 的 反应 之 间 的 关系 及 大 
脑 中 的 神经 元 的 电话 动 之 则 的 关系 。 

RSCA URP DR BE F AHER ,如 卷 积 神经 网 络 .深度 置信 网 络 和 递归 神经 网 络 已 被 应 
用 于 计算 机 视觉 语音 识别 ,日 然 语 言 处 理 、 音 频 识别 与 生物 信息 学 等 领域 并 获取 了 极 好 
的 效果 。 通 常用 于 检验 数据 集 , 如 语音 识别 中 的 TIMIT 和 图 像 识 别 中 的 ImageNet， 
Cifar10 上 的 实验 证 明 ,深度 学 习 能 够 提 融 识 别 的 精度 。 

刹 件 的 进步 (尤其 是 GPU 的 出 现 ) 也 是 深度 学习 重新 获得 关注 的 重要 因 系 。 融 性 能 
图 形 处 理 冀 的 出 现 极 大 地 提高 了 数值 和 和 矩阵 运算 的 速度 ,使 得 机 冀 和 学习 算法 的 运行 时 间 
得 到 了 显著 缩短。 

UE BE 7e 2J B 3 il Ze Das ce oJ P AA ARR (Distributed Representation)。 分 散 表 示 
fE x 0L (EL s FH AI F8] A EEH. Fe EAE fl E. vR BE SE A XE — 2b ICE XX — TH E. 
作用 的 过 程 可 分 为 多 个 层次 ,代表 对 观测 值 的 多 层 抽 象 。 不 同 的 层 数 和 层 的 规模 可 用 于 
不 同 程 度 的 抽象 。 

深度 学 习 运 用 了 分 层次 抽象 的 思想 ,更 高 层次 的 概念 从 低层 次 的 概念 学 习 得 到 。 这 
一 分 层 结 构 肖 第 使 用 仿 杨 算法 偿 层 构建 而 成 ,并 从 中 选取 有 助 于 机 副 学 习 的 更 有 戏 特征 。 

深度 学 习 的 结构 主要 包括 深度 神经 网 络 .这 度 置信 网 络 和 卷 积 神经 网 络 。 

(1) 深度 神经 网 络 (Deep Neural Networks,DNNJ) 是 一 种 具备 至 少 一 个 隐 层 的 神经 
网 络 。 与 浅 层 神经 网 络 类 化 ,深度 神经 网 络 也 能 够 为 复杂 非 线性 系统 提供 建 模 ,但 多 余 的 


层次 为 模型 提供 了 更 高 的 抽象 层次 ,因而 提高 了 模型 的 能 力 。 许 度 神 经 网 络 是 一 种 判别 
模型 ,可 以 使 用 反 回 传播 算法 进行 训练 。 

(2) RE BA M4 (Deep Belief Networks,DBN) 是 一 种 包含 多 层 隐 单元 的 概率 生成 
模型 ,可 被 视 为 多 层 人 简单 学 习 模 型 组 合 而 成 的 复合 模型 。 

深度 置信 和 网络 可 以 作为 深度 神经 网 络 的 预 训练 部 分 ,并 为 网 络 提供 初始 权重 ,上 青 使 用 
反 回 传播 或 者 其 他 判定 算法 作为 调 优 的 手段 。 这 在 训练 数据 较为 缺乏 时 很 有 价值 ,因为 
不 恰当 的 初始 化 权重 会 显 者 影 啊 最 终 模型 的 性 能 ,而 预 训 练 获 得 的 权重 在 权 值 空间 中 比 
随机 权重 更 接近 最 优 的 权重 。 这 不 仅 提升 了 模型 的 性 能 ,也 加 快 了 调 优 阶 段 的 收敛 速度 。 

这 度 置信 网 络 中 的 每 一 层 都 是 则 型 的 党 限 玻 尔 效 曼 机 (Restricted Boltzmann 
Machine, RBM) ,可 以 使 用 高 将 的 无 监督 逐 层 训练 方法 进行 训练 。 受 限 玻 尔 效 曼 机 是 一 
种 无 回 的 基于 能 量 的 生成 模型 ,包括 一 个 输入 层 和 一 个 隐 层 。 单 层 RBM 的 训练 方法 最 
初 由 杰 弗 里 。 广 顿 在 训练 “专家 乘积 ”中 提出 ,被 称 为 对 比分 卜 。 对 比分 皮 提 供 了 一 种 对 
最 大 似 然 的 近似 ,被 理想 地 用 于 学 习 受 限 玻 尔 效 曼 机 的 权重 。 当 单 层 RBM 被 训练 完毕 
后 , 男 一 层 RBM n] SOR S fe G AIRERA RBM 上 ,形成 一 个 多 层 模型 。 每 次 堆 倒 时 ， 
原 有 的 多 层 网 络 输入 层 被 初始 化 为 训练 样本 ,权重 为 先前 训练 得 到 的 权重 ,该 网 络 的 输出 
作为 新 增 RBM 的 输入 ,新 的 RBM 重复 先前 的 单 层 训练 过 程 ,整个 过 程 可 以 持续 进行 ,和 
到 达到 某 个 期 望 中 的 终止 条 件 。 

(3) 卷 积 神经 网 络 (Convolutional Neuron Networks,CNN) 由 一 个 或 多 个 卷 积 层 和 
顶端 的 全 连通 层 ( 对 应 经 典 的 神经 网 络 ) 组 成 ,同时 也 包括 关联 权重 和 池 化 层 。 这 一 结构 
使 得 着 积 神经 网 络 能 够 利用 输入 数据 的 二 维 结构 。 与 其 他 深度 学 习 结 构 相 比 , 卷 积 神经 
网 络 在 图 像 和 语音 识别 方面 能 够 给 出 更 优 的 结果 。 这 一 模型 也 可 以 使 用 反问 传播 算法 进 
t1WI 2k. 4H EB fi DRE .前 馈 神 经 网 络 , 卷 积 神 经 网 络 需要 依 计 的 参数 更 少 ,使 之 成 为 一 
f Boi FLU 5| 7] HI TR RE: 2J 2839 , 


10.3.2 极限 学 习 机 


极限 学 习 机 (Extreme Learning Machine. ELM) 是 由 学 者 黄 广 斌 提出 来 的 求解 单 隐 
层 神 经 网 络 的 算法 。ELM 最 大 的 特点 是 ,对 于 传统 的 神经 网 络 , 尤 其 是 单 隐 层 前 馈 神 经 
网 络 (SLFNs) ,在 保证 学 习 精 度 的 前 提 下 比 传 统 的 学 习 算 法 速度 更 快 ,其 结构 如 图 10. 13 
所 示 。 

ELM 是 一 种 新 型 的 快速 学 习 算 法 ,对 于 单 隐 层 神经 网 络 ,ELM 可 以 随机 初始 化 输入 
权重 和 偏 置 ,并 得 到 相应 的 输出 权重 。 

对 于 一 个 单 隐 层 神经 网 络 ( 图 10. 13) ,假设 有 N 个 任意 的 样本 (X;,z;), 其 中 ,X, 一 
[wa stas" Tn | ER ,t= Uta yt "tn |] ER”. 对 于 一 个 有 工 个 隐 层 结 点 的 单 隐 层 神 
经 网 络 可 以 表示 为 : 
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图 10.13 单 隐 层 前 馈 神 经 网 络 结 构 


L 
X Bg Wi X; +b) —0;, jo1,2,-,N (10. 42) 


式 中 sg GO] WU PR RL; W; =| w; 9 i,2 9 o Win] 为 输入 权重 ; 应 为 输出 权重 ; b; 
是 第 i 个 隐 层 单元 的 偏 置 。W;， X; 表示 W; HX; 的 内 积 。 
单 隐 层 神经 网 络 学 习 的 目标 是 使 得 输出 的 误差 最 小 ,可 以 表示 为 ， 


s | Oj;—ul =0 (10. 43) 
TITRE TET E 
y Bg QW; * X; +b) St; j — 1,2... N (10. 44) 
可 以 矩阵 表示 为 
HB —T (10. 45) 


式 中 ,H ES mh; Bwihpm: 了 为 期 望 输出 。 
HOW,.--- Wi; sd y 99 Ee M VEL 
2 (WW X; T5) S g(Ow, " Xi +b) 


= : : (10. 46) 
g (Wi XN 十 hi ) dm g (WL " XN 十 bi) NXL 
A [Ti 

B—: PI (10. 47) 

à; Br Lm | 'N NXm 

H Y fü E UI S E Jp A I] Zn. T IW, b: FUB ,使 得 : 

| HW: Ê— TI = min || HW,,6) & — TI (10. 48) 

Wb. 
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其 路 一 1,2,…, 工 ,这 等 价 于 最 小 化 损失 果 数 ; 


N a 2 


j=1 \ i=l 


传统 的 一 些 基于 梯度 下 降 法 的 算法 ,可 以 用 来 求解 这 样 的 问题 ,但 是 基本 的 基于 梯度 
的 学 习 算法 需要 在 迭代 的 过 程 中 调整 所 有 参数 。 而 在 ELM 算法 中 ,一 旦 输入 权重 W, 和 
隐 层 的 偏 置 5; 被 随机 确定 , 隐 层 的 输出 矩阵 H 就 被 唯一 确定 。 训 练 单 隐 层 神经 网 络 可 以 
转化 为 求解 一 个 线性 系统 HB =T。 并 且 和 输出 权重 8 可 以 被 确定 为 : 
B= HT (10. 50) 
Rp, H EIEE H RI ALEE, AT uE R 5918 的 范 数 是 最 小 的 并 上 且 
唯一 多 。 


(710.4 神经 网 络 的 MATLAB 实践 
可 


神经 网 络 从 发 展 至 今 约 30 年 ,其 早已 被 集成 在 MATLAB 的 函数 中 ,是 为 了 便于 使 
用 ,其 已 经 被 制作 成 较为 专业 的 工具 箱 。 在 MATLAB 的 界面 的 右上 角 查 询 框 中 输入 : 
Neural Network Toolbox Functions. , 则 会 查找 与 神经 网 络 工 具 箱 图 数 相 关 的 帮助 文件 ， 
如 图 10. 14 所 示 中 搜索 的 第 3 项 。 


| Search Results - Neural Network Toolbox Functions» | + 


Neural Network Toolbox Functions 





Ha Neural Network Toolbox Functions 1-10 RRRA dE 422 & 学 


Eam ou Define Neural Network Architectures - Define new neural network architectures and algorithms for advanced applications E 
omm Define new neural network architectures and algorithms for advanced applications 
JA gi 'r 15 > Neural Network Toolbox 


Neural Network Toolbox Bibliography 
Refer ta additianal sources of information about neural networks 
w > Neural Network Toalbax > Getting Started with Neural Network Toolbox 


E ~m DE 

MATLAB 

Simulink 

Biaelnferm aliez Taalbax 

Using Neural Network Toolbox 


Cüm puler Vision Syslem Toolbox 
Learn about the ways in Which yeu ean access the capabilities of the Neural Network Toolbox software 





图 10.14 Neural Network Toolbox Functions 文档 搜索 


单 击 第 3 项 后 , 则 展示 出 所 有 与 神经 网 络 相 关 的 MATLAB rRZXC. An] 10. 15 所 示 。 
读 痢 可 根据 兴趣 进行 逐个 了 解 。 

下 面 介 绍 一 个 人 简单 的 基于 神经 网 络 工 具 箱 录 数 的 实例 ,以 便 读 者 更 加 深入 理解 。 涉 
及 的 图 数 主要 包括 feedforwardnet、configure 和 train, 


i) 型 助 
和 时 电击 -加 | | Neural Network Toolbox | + 
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图 10.15 MATLAB #2 Mż T. .E.48 PR ZA 


(1) feedforwardnet 图 数 其 调用 形式 为 : 


feedforwardnet(hiddenSizes, trainFcn) ( 

该 函数 的 主要 作用 是 定义 网 络 的 结构 及 网 络 的 形式 。 其 中 ,hiddenSizes 用 于 定义 网 
络 隐 层 的 层 数 ,以 及 每 一 层 神 经 元 个 数 , 默 认 情 况 为 单 层 10 个 神经 元 ; trainFen H T 4E 
义 网 络 的 形式 ,默认 情况 下 为 LM A BP 反馈 网 络 。 

(2) configure PR Zi — Jl ys] FHJE 3X 2 : 


net = configure(net, x, t) 1 


主要 作用 是 设置 网 络 输入 和 输出 大 小 和 范围 、 设 置 输入 预 处 理 .输出 后 处 理 和 权重 初 
始 化 ,以 匹配 输入 和 目标 数据 的 过 程 。 其 中 ,net 为 feedforwardnet 图 数 设 置 的 网 络 ,x 为 
前 入 数据 ,t 为 目标 数据 。 

(3) train 图 数 的 一 般 调 用 形式 为 


[net, tr] = train(net, x, t, xi,ai, EW) 


主要 作用 为 需要 神经 网 络 模型 。 其 中 ,net 为 configure 配置 的 初始 网 络 ; xi 为 初始 
mA RES Z& TE ,默认 为 0; ai 为 初始 层 延 返 条 件 , 软 认 为 0; EW Xon BUR mÆ; tr 表示 训 
练 过 程 的 记录 值 。 


第 10 草 ”神经 网 络 : 


利用 上 述 3 个 函数 ,实现 一 个 简单 的 神经 网 络 训练 模型 ,程序 如 下 (ANN_Mat. m X 
件 ) ,其 运行 结果 如 图 10. 16 和 图 10. 17 所 示 。 


& 名 神 经 网 络 MATLAB 实践 


cic 

clear 

close 

x-[012345678]; & 样本 属性 值 
t=[00.840.910.14-0.77-0.96-0.280.660.99]; 名 样 本 的 目标 标签 值 

net = feedforwardnet(10); 名 定义 神经 网 络 一 层 隐 层 , 且 神经 元 数量 为 10 个 
net = configure(net,x,t); 名 利用 构建 的 网 络 , 对 网 络 各 参数 进行 初始 化 赋值 ,形成 初始 网 络 
yl = net (x); s 初始 网 络 对 输入 进行 计算 后 的 输出 

net = train(net,x,t); s 对 构建 的 神经 网 络 进行 训练 ,输出 训练 完成 的 网 络 
y2 = net(x); & 训练 完成 后 的 网 络 对 输入 进行 计算 后 的 输出 
plocí(x,t,'o' x; v1, 'x' x, 923," * "] & Xf — 34 CUR ETT 22 R 


legend( ' 原 始 数据 值 "， 初 始 网 络 预测 值 '， 训练 后 网 络 预测 值 ") 


4| Figure 1 
MHA WAHO E50 播 入 由 IAM Sm) #00 帮助 {H) 
Dub hl oS9g Z- 





图 10.16 神经 网 络 训练 数据 图 


如 图 10. 16 所 示 ,绘制 了 三 组 数据 ,分 别 为 原始 数据 值 `. 初 始 网 络 预测 值 和 训练 后 网 
络 预测 值 。 从 数据 的 拟 合 程度 可 看 出 该 神经 网 络 模型 能 够 较 好 地 预测 数据 。 值 得 注意 的 
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是 ,读者 可 能 在 运行 上 述 程 序 时 ,得 到 的 结 末 和 图 10. 16 有 较 大 的 差异 ,主要 原因 是 
configure 配置 网 络 的 初始 权重 是 随机 的 ,并 且 , 由 于 初始 权重 的 随机 性 ,不 能 保证 每 次 的 
训练 都 能 达到 较 好 的 效 朱 ,换言之 ,在 一 定 条 件 下 ,模型 权重 的 初始 值 对 模型 训练 的 好 坏 
也 有 至 天 重要 的 作用 ,类 似 于 局 部 最 优 和 全 局 最 优 的 概念 。 

如 图 10. 17 所 示 ,显示 了 本 次 训练 模型 的 相关 参数 ,如 网 络 结构 .算法 实现 过 程 中 的 
一 些 方 法 及 模型 计算 过 程 中 的 输出 参数 。 


4& Neural Network Training (nntraintool) 


Neural Network 


Algorithms 

Data Division: Random (dividerand) 

Training: Levenberg-Marquardt (trainlm) 
Performance: Mean Squared Error (mse) 
Calculations MEX 


Progress 
Epoch: 
Time: 
Performance: 
Gradient: £ 
Mu: .00 i 1.00e-06 
Validation Checks 
Plots 
(plotperform) 


Training State | (plottrainstate) 


Error Histogram | (ploterrhist) 


| Regression | (plotregression) 


Plot Interval: g | 41 epochs 


























w? Minimum gradient reached. 





Q Stop Training | | @ Cancel 


图 10.17 训练 参数 图 
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AdaBoost 算 法 





本 章 将 介绍 在 机 需 学 习 和 数据 挖掘 领域 中 的 一 个 使 用 相当 广泛 的 算法 ,被 列 为 数据 
挖掘 十 大 算法 之 一 : AdaBoost 算法 。AdaBoost 算法 是 一 种 集成 算法 。 为 了 更 好 地 理解 
AdaBoost 算法 的 思想 ,本 章 首 先 介绍 一 下 集成 学 习 的 历史 背景 、 主 要 思想 及 代表 方法 。 
然后 日 然 地 引入 AdaBoost 算法 。 最 后 同 其 他 所 有 章节 一 样 ,会 详细 地 介绍 算法 的 步骤 
及 如 何在 MATLAB 实现 。 


Gh 11.1 集成 学 习 方法 简介 


一 个 概念 如 果 存 在 一 个 多 项 式 的 学 习 算 法 能 够 学 习 它 ,并 且 正 确 率 很 高 ,那么 ,这 个 
概念 是 强 可 学 习 的 ; 一 个 概念 如 果 存 在 一 个 多 项 式 的 学 习 算法 能 够 学 习 它 ,并 且 学 习 的 
正确 率 仅 比 随机 猜测 略 好 ,那么 ,这 个 概念 是 弱 可 学 习 的 。 那 么 一 个 很 目 然 地 想法 就 是 如 
果 已 经 发 现 了 “ 弱 学 习 算 法 ”, 能 和 否 将 它 提 升 为 “ 强 学 习 算 法 ”。 也 就 是 说 能 不 能 通过 很 多 
弱 学 习 器 得 到 一 个 强 学 习 器 。 答 案 是 肯定 的 。 在 机 器 学 习 中 专门 有 一 个 分 支 称 为 集成 学 
2] (Ensemble Learning) ,集成 学 习 本 身 不 是 一 个 单独 的 机 需 学 习 算 法 ,而 是 通过 构建 并 
结合 多 个 机 器 学 习 器 来 完成 学 习 任务 ,也 就 是 常 说 的 “博采众长 "5 。 图 11. 1 展示 了 集成 
学 习 的 思想 。 


11.1.1 集成 学 习 方 法 分 类 


集成 学 习 需 要 解决 两 个 问题 ,一 是 如 何 得 到 知 干 个 个 体 学 习 天 ; 二 是 如 何 选择 一 种 
结合 策略 ,将 这 些 个 体 学 习 需 集合 成 一 个 强 学 习 骨 。 





SNO 


:148 : 机 器 学 习 入 门 到 实战 一 -MATLAB 实 践 应 用 





弱 学 习 器 | 一 | 个 体 学 习 跨 2 


图 11.1 集成 学 习 思 想 


第 一 种 就 是 所 有 的 个 体 学 习 希 者 是 一 个 种 类 的 ,或 者 说 是 同 质 的 。 例 如 ,都 是 决策 树 
^ We 2] 858 ,或 着 都 是 神经 网 络 个 体 学 习 基 。 第 二 种 是 所 有 的 个 体 和 学习 天 不 全 是 一 个 种 
类 的 ,或 者 说 是 异 质 的 。 例 如 ,有 一 个 分 类 问题 ,对 训练 集 分 别 采 用 文 持 回 量 机 个 体 学 习 
第 、 逻辑 回归 个 体 学 习 硕 和 朴 隶 贝 叶 斯 个 体 学 习 需 ,然后 通过 采种 结合 宁 略 来 得 到 一 个 强 
4] 2S*£ 2] di, 

H nif ole pi . fa] oi HAE 2J 28 9L HZ I 2E]. RS DUET) SEHE 2J 892r 1 BR HZ 
HIT HEISE. nulo Viejas f Hii BE AM E CART 决策 树 和 神经 网 络 。 同 
W^ WE TJ di dà BR VRIE 2J de c IR] Ze ETE TOR OR ZR RI IA TN VAS .— 2S AE VETE TJ 8 
«c |] EE TE v8 MORS S. 28 91A MSIE 2J i AES D nu e PITE, AAR SE IETE Boosting 系 
列 算法 ; 2S3 ME x IBILATE EBR ZR. 38 9T VIE 2J 88 WI AFITE N., 
代表 算法 是 bagging 和 随机 和 森林 (Random Forest? & 9 $$ iE , 


11.1.2 集成 学 习 Boosting 算法 


Boosting 算法 的 个 体 分 类 带 之 间 是 有 依赖 性 的 ,也 就 是 说 下 一 个 分 类 兹 的 构造 和 上 
一 个 分 类 痊 有 关 , 如 图 11. 2 所 示 。 

从 图 11. 2 中 可 以 看 出 ,Boosting 算法 的 工作 机 制 是 ,首先 从 训练 集中 用 初始 权重 训 
Zkih—4-5992£ 2] 8& 1.48 18 892€ 2J 38 1 的 学 习 误 差 率 表现 来 更 新 训练 样本 的 权重 ,使 得 之 
Hij 555 2] 38 1 和 学习 误 差 率 高 的 训练 样本 点 的 权重 变 高 ,以 便于 这 些 误差 率 高 的 点 在 后 面 
WYA 2 中 得 到 更 多 的 重视 。 然 后 基于 调整 权重 后 的 训练 集 来 训练 弱 学 习 器 2, 如 
此 重复 进行 ,直到 弱 学 习 絮 数 达 到 事先 给 定 的 数目 本, 最终 将 这 本 个 弦 学 习 侨 通过 集合 
策略 进行 整合 ,得 到 最 终 的 强 学 习 肯 。 

而 AdaBoost 算法 是 Boosting 算法 的 一 个 代表 ,当然 也 符合 图 11. 2 所 示 的 框架 。 实 
际 上 这 个 框 染 已 经 阐述 了 AdaBoost 算法 的 核心 步骤 。 唯 一 的 细 市 就 是 如 何 更 新 权重 ,以 
及 如 何 设 计 最 后 的 组 合 策略 。 基 于 上 面 这 些 知 识 的 铺垫 ,下 面 正 式 介绍 AdaBoost 算法 。 
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市 权重 D() 
训练 集 


市 权重 Z(C2) 
训练 集 


根据 al 更 新 样本 权重 DG3) 





TRN / 


ammo | 训练 |。 REJAT 
WEDO) | WER | 和 于 学 本 误差 率 e7 





训练 集 更 新 权重 系数 aT 


图 11.2 分 类 器 构造 之 间 的 关系 


(^ 11.2 AdaBoost 算法 原理 


AdaBoost Æ % X Adaptive Boosting ( H ii hy 3$ 3 ) BJ 48 53. H Yoav Freund 和 
Robert Schapire"" F 1995 年 提出 。 它 的 自 适 应 在 于 : 前 一 个 基本 分 类 天 分 错 的 样本 会 
得 到 加 强 ， 加 权 后 的 全 体 样本 再 次 被 用 来 训练 下 -个 基本 分 类 天 。 同 时 ,在 每 一 轮 中 加 入 

-个 新 的 罚 分 类 弟 , 百 到 达到 亲人 个 预定 的 足够 小 的 销 误 率 或 达到 预先 指定 的 最 大 友 代 
X X 


11.2.1 AdaBoost 算法 思想 


AdaBoost 痛 先 基于 原始 数据 分 布 构建 第 一 个 简单 的 分 类 熏 hi IEI bootstrap 生成 
工 个 分 类 如 ,这 工 个 分 类 融 是 相互 关联 的 ,最 后 把 这 些 不同 的 分 类 天 集合 起 来 ,构成 一 个 
更 强 的 最 终 的 分 类 如 ( 强 分 类 带 )。 理 论证 明 , 只 要 每 个 弦 分 类 兹 分 类 能 力 比 随机 猜测 要 
好 (分 类 的 正确 率 大 于 0.5), 当 其 个 数 趋 癌 于 无 穷 个 数 时 , 踢 分 类 如 的 错误 率 将 趋 癌 于 
去 。AdaBoost 算法 中 不 同 的 训练 集 是 通过 调整 每 个 样本 对 应 的 权重 实现 的 。 最 开始 时 ， 
每 个 样本 对 应 的 权重 是 相同 的 ,在 此 样本 分 布下 训练 出 一 个 基本 分 类 兰 h(xz)。 对 于 
hi1(z) 错 分 的 样本 , 则 增加 其 对 应 样本 的 权重 ; 而 对 于 正确 分 类 的 样本 , 则 降低 其 权重 。 
这 梓 可 以 突出 错 分 的 样本 。 同 时 ,根据 误差 赋 子 hi (x) 一 个 权重 ,表示 该 基本 分 类 带 的 重 
要 程度 , 错 分 得 越 少 权 重 越 大 。 在 新 的 样本 权重 下 ,再 次 训练 一 个 基本 分 类 化 ,得 到 基本 
TRA h (Cz) 及 其 权重 。 依 次 类 推 , 经 过 工 次 这 样 的 循环 ,就 得 到 了 工 个 基本 分 类 船 ， 以 
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及 工 个 对 应 的 权重 。 最 后 把 这 工 个 基本 分 类 器 按 之 前 计算 的 权重 累加 起 来 ,就 得 到 了 最 
2X. Br Hj ER y o 72S RO, 


11.2.2  AdaBoost 算法 理论 推导 


为 了 对 AdaBoost 算法 做 进一步 理论 分 析 ,首先 用 数学 化 的 声言 描述 一 下 AdaBoost 
算法 的 过 程 。 假 设 有 一 个 训练 数据 集 为 : 
T = {Cry Ge yo) TN YN 
初始 化 训练 数据 的 权 值 分 布 为 : 


D; TEE: (wi 9 CU12 stt Wiis T7* AN ) tUa; — * 1 一 ] ,2 „N 


M E por C d EAE aAa a: 
G,(x):x—i(i—1.-4-1j 
利用 AdaBoost 算法 ,计算 G, Ca B5 38 3C. LX REP T 22S 38 BILDUOR AX : 
l—95*. 


7 es Nia ia 
s 5 En 


式 中 ,e H Gra, GOTEVI ZkZicts E EB 4r 2S x 28 . nT DEAE DJ : 
en = P(G (D zy) = 2 wl (Gn (r)) zb y) 
更 新 训练 数据 集 的 权 值 分 布 ,计算 如 下 : 


|) PE -— (Wa 1,1 * W q-F1,2 5 r Want, n Tm H.N) . 


exp(— anyiGn (Ti)), i=1,2,,N 





UUm-Fl,i 一 


Z, 
式 中 ,Z 为 规范 化 因子 ，Z。 = X) ton exp any Gn D) EE D, a 成 为 一 个 概率 
AM. E 
构建 基本 分 类 器 的 线性 组 合 为 
fix) = y Erst x) 
> 


3 l| Ip 2X 4] 2S di 2 : 


i ! 
Gr) = sinl firi) = sign| 2a. 


m=] 


至 此 ,介绍 了 AdaBoost H sé SEE P2 , EAE H3) 43 28 8 MARAA EA E 
的 更 新 公式 。 读 者 可 能 会 疑惑 ,这 些 公 式 是 怎么 得 到 的 。 详 细 的 细节 不 做 介绍 ,但 是 通过 
下 面 的 分 析 , 谈 者 会 明日 选择 这 些 公式 的 合理 性 。 首 先 分 析 AdaBoost 算法 得 到 的 分 类 
大 的 误差 限 。 有 以 下 的 结论 : 
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N 
T2 I(G, Gr) Æ y) S ud expC— yif (Xi)) = Iz. 


证 明 : 当 GG, Éy, 时 ,yf Go <0, A expC yif Ge; 1, MRA 得 证 。 对 于 
后 半 部 分 


M 
LY expC- yf aD) = i Xew[- Dory Ga) | 


m=] 


M 
= wy X) exp|— ba NUT ETE E ] 


i m=] 


M 
= Wii Hi expC— asy iG, Cri)) 


m=] 


= fı Dwa ewt o y Urs, Cn; ) ) 


m-—2 


— ZiZs 2 js TT ost. Q5 y iG s C xi )) 


m=3 


= PA us. eZ M X uM expC— aw y iG M Cr; ) ) 


-: gx 
证 明 过 程 中 用 到 的 结论 : 





— Üm.y G. x; ) ) 





UCUm--1,i 一 


Wm 
Ba 
EaU m4, — Wa expCo as y n Cr;)) 


XH: 
=N (2 Eml — em) ) = II A 一 47 <ex|- 72 2d 
er i . 





L y I(GG) z y) < expC— 2My?) 
i=] 


这 说 明 AdaBoost A HJix322 E AMRA, 3VUPIORT Bio EupAB)TEST AD P. 


N 
Lm = > uw expC— as yiG as xi) = » wmie m -F Wmi Cm 
i=] y;=G_(z,) y;#G, Gr) 
= (1—e,)e "m He en = 2e, (1 一 ce) = 41 一 47 
对 于 分 类 器 加 权 的 计算 公式 及 样本 权重 的 更 新 公式 可 以 通过 前 向 分 布 算法 推导 得 
到 。 准 确 地 说 ,AdaBoost 算法 是 模型 为 加 法 模型 .损失 困 数 为 指数 图 数 .学 习 算 法 为 前 回 


E n 
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P mn 
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Li = 
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分 步 算法 时 的 二 类 学 习 方 法 ,详细 过 程 可 参考 相关 文献 。 


11.2.3 AdaBoost 算法 的 实现 步 又 


具体 地 说 ,整个 AdaBoost 迭代 算法 分 如 下 3 步 。 
(1) 初始 化 训练 数据 的 权 值 分 布 。 每 一 个 训练 样本 最 开始 时 邦 被 赋 子 相同 的 权 值 : 
1/N, 


| ! ] | | 
D, E (1 s LU» prr 4004; 5 g IUN) $003; = — y 1 = 1,2," N 


N 
(2) 进行 m UX3X TV , H G, (ORI KA m $63 T AT 2S i es 表示 当前 的 分 类 误差 ， 
am 表示 加 和 系数 。 其 中 ，. 
(D 使 用 具有 权 值 分 布 D, 的 训练 数据 集 学习 ,得 到 基本 分 类 大 : 
下 
D 计算 G(xz) 在 训练 数据 集 上 的 分 类 误差 率 ， 


N 
e, = POG, (Xi) Æ y = ee (Grn Cri) Yi) 
i-] 
© 计算 G, (xz) 的 系数 ,a,, 表示 Gu。(Cz) 在 最 终 分 类 关中 的 重要 程度 ， 


Q = od Nia 
E 2 g 


-m 


rH ERRATA en 1/2 If san >00, H an BG e, 的 减 小 而 增 大 ,意味 着 分 类 误差 率 
越 小 的 基本 分 类 天 在 最 终 分 类 磊 中 的 作用 越 大 。 
更 新 训练 数据 集 的 权 信 分 布 ( 目 的 : 得 到 样本 的 新 的 权 值 分 布 ), 用 于 下 一 轮 迭 代 : 


Dn = GU »T0n4,25 7 9 Wath * » Up, N 





Wmi CX E ( 
da. s 7 exp(— a, yr, (xr), To Leapa 


其 中 ， 
N 

P. E > UU gi exp(C— QV iG m (xj ) ) 
:1—] 


f 153-9 AE ZI Ay 238 GC(z) 误 分 类 样本 的 权 值 增 大 ,而 被 正确 分 类 样本 的 权 值 减 小 。 
这 样 ,通过 此 方式 ,AdaBoost 算法 能 “重点 关注 ”或 “聚焦 于 ”那些 较 难 分 辨 的 样本 上 。 
(3) 组 合 名 个 弱 分 类 兹 ; 


M 


FD = »'aG,G) 


m=] 


gt 2 4p AS eir 2 : 


EXE ! 
Glz) = sigat fir) = sign( > GoCz)] 


m=] 


4C. 
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11.2.4 AdaBoost 算法 的 特点 


AdaBoost 是 一 种 有 很 高 精度 的 分 类 冀 , 可 以 使 用 各 种 方法 构建 子 分 类 兹 ,AdaBoost 
算法 提供 的 是 一 个 框架 。 当 使 用 简单 分 类 器 时 ,计算 出 的 结果 是 可 以 理解 的 。 而 且 弱 分 
类 天 构造 极其 简单 ,不 用 做 特征 响 选 ,不 容 允 过 拆 合 ,天 于 这 一 点 的 解释 有 两 种 看 法 ,分布 
式 margin 理论 和 统计 观点 ,其 细节 读者 可 以 查看 相关 文献 。 


11.2.5 通过 实例 理解 AdaBoost 算法 


下 面 通过 一 个 实例 来 说 明 AdaBoost 算法 的 计算 过 程 。 首 先 假设 有 一 个 二 分 类 问 
题 ,数据 分 布 如 图 11. 3 所 示 ,目的 是 寻找 一 个 分 类 天 使 它 能 够 将 正 负 样 本 分 开 。 

图 11. 3 中 ,训练 数据 集中 “十 ”和 “一 ”分 别 代表 两 个 类 别 。 符 号 的 大 小 代表 每 个 样本 
的 权重 ,Di 是 当前 数据 的 分 布 。 

使 用 AdaBoost 算法 来 实现 分 类 目的 。 按 照 AdaBoost 的 思想 需要 构造 多 个 简单 的 
分 类 需 , 然 后 用 分 类 需 加 和 的 结果 作为 最 终 的 分 类 需 。 那 么 第 一 步 先 找到 第 一 个 分 类 需 
h, ,如 图 11.4 所 示 。 





图 11.3 二 分 类 数据 分 布 图 图 11.4 DŽ h 数据 分 类 
图 11.4 中 s 和 a 的 计算 过 程 如 下 。 
第 一 步 , 算 法 最 开始 给 了 一 个 均匀 分 布 卫 。 所 以 访 中 的 每 个 点 的 权重 是 0.1。 当 
划分 后 ， 有 3 个 点 划分 错 了 (图 11. 4 rP imi [p] A SJ RE ZO . TR S P 1A UR 28 4€ 35 6 — 
P, - p, Lh; Gc Æ y; S 28 28 4 8 Y 3 个 点 的 值 之 和 ,所 以 si — (0.14370. 1370. 10 — 
0. 3. Tfi] o4 根据 表达 式 得 : 


1 ea 
p = a E zin 0.3 0. 42 


B AR O.42. JA eR S A EN i HH) EUCDUB AE. SET BOSE 7 Ax ENTIA 
重 减 小 。 对 于 分 错 的 3 个 点 ,其 权 值 为 : 

r e* Ahi 
D, Ci) x | 








D, (i) — 一 一 一 


| et -5 hx) Jt Vi 
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因为 a0. PTL e 二 1, 所 以 分 错 梓 本 的 权重 会 变 大 ,相应 的 分 对 样本 的 权重 减 小 。 
这 样 就 得 到 了 新 的 权重 分 布 Di. 

第 二 步 ,根据 分 布 D; ,得 到 一 个 新 的 子 分 类 郑 h 和 更 新 后 的 样本 分 布 D; ,如 图 11. 5 
所 示 。 

第 三 步 ,根据 分 布 D; ,得 到 一 个 新 的 子 分 类 大 Am ,如 图 11.6 所 示 。 





图 11.5 分 类 器 hs 数据 分 类 11.6 HR h 数据 分 类 


整合 所 有 子 分 类 器, 如 图 11.7 所 示 。 





图 11.7 分 类 融 整 合 分 类 


从 图 11.7 中 可 以 看 出 ,通过 这 些 简 单 的 分 类 带 , 最 终 即 使 对 于 一 个 线性 不 可 分 的 数 
据 集 , 也 能 得 到 很 低 ela ; 


*- 11.3 AdaBoost 算法 的 改进 


11.3.1 RealAdaBoost 算法 


Discrete AdaBoost 的 每 一 个 弱 分 类 的 输出 结果 是 1 或 一 1, 并 没有 属于 某 个 类 的 概 
率 , 略 显 粗 糙 。 如 果 让 每 个 弱 分 类 关 输 出 样本 属于 某 个 类 的 概率 , 则 可 以 得 到 Real 
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AdaBoost $15 U- ,其 步骤 如 下 。 

(1) 从 权重 开始 2UU;—1/N.i—1.2. -— ON. 

(2) 重复 m=1,2, M, 

CD 在 训练 数据 上 使 用 权重 zw ,调整 分 类 器 以 获得 类 概率 估计 p,(x) 二 p(y 二 1|1x) E 
Hast |. 


GO 设置 fa GO 7 logp, Gr) / (01 p, [39 )E- R., 


(3) ix B Wi —w;expl — vif» (Xx;) ];: 4 1.2.77: , N ,重新 归 -化 ,使 ou, = ]. 


(3) 输出 分 类 条 sign| 315.6 | - 


RealAdaBoost EAI 4 2S ds i t FE A J88 T 26 2S HJ TRES Js. ,通过 一 个 对 数 图 数 将 0 一 1 
E] 38 255 [ER I Ej 6] SE RR Rc Jes HJ 4 2S mi e PIDE ERST BR CIE RIT 


11.3.2  GentleAdaBoost 算法 


Tf RealAdaBoost TIA 8E GE fV RJ PESE JE» E Fra HE — 1- BESTE E SEC ACE B] pR R, 
成 了 GentleAdaBoost 算法 所 ,其 算法 步骤 如 下 。 

(1) 从 权重 开始 ,wi 二 1/N,i=1,2,*…,N,F(x)==0。 

(2) 重复 m= 一 1,2,* AM。 

CD 通过 权重 w HJ y; $8] x; 的 加 权 最 小 二 乘法 ,调整 回归 图 数 Cx, 

© Bp FG)-—FGOTf.G). 

O 更 新 ww< w;expl — yif « GO ]i—1,2, 有 ,重新 归 一 化 。 


M 
(3) 输出 分 类 证 sign F(x)j」 = sien| Ih n | " 
m=] 


GentleAdaBoost II Æ EREET., dd F Eh — R E AeA JL C [nl 0H. , e Jes Pr A e 
负数 的 和 作为 最 终 的 分 类 兹 。 


11. 3.3  LogitBoost 算法 


LogitBoost 算法 和 GentleAdaBoost 算法 相似 ,但 是 其 每 次 进行 回归 拟 合 的 变量 = 是 
在 不 断 更 新 的 ,GentleAdaBoost 使 用 的 是 y, 。LogitBoost 算法 步骤 如 下 。 

(1) 从 权重 开始 ,w= 二 1/N ,i 二 1,2,…,N,F(x) 二 0, 概 率 估 计 p Ge —0. 5, 

(2) 重复 m—1,.2.:.M, 

(D 计算 工作 响应 和 权重 ， 


! 4BB : 
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— y: TO pix) 
0o gn (SS) 
BUS — plz) Ad za pi) 


O 更 新 FOGO-—FGO) tf. [D bE ae ty CO. Lacy 


M 
(3) 输出 分 类 天 sign | FG ] = sien fa œ | E 
m=] 


^ 11.4 AdaBoost 算法 的 MATLAB 实践 


在 MATLAB 的 统计 与 机 需 学 习 工 具 箱 中 ,分 类 和 回归 算法 中 都 实现 了 一 大 类 方 
法 称 为 Ensemble 方 法。 可 以 直接 利用 MATLAB 的 工具 箱 轻 松 地 实现 很 多 集成 方法 ， 
当然 也 包括 AdaBoost $E ik. MATLAB 创建 一 个 集成 类 的 图 数 是 fitensemble, 请 法 
如 下 : 


ens = fitensemble( X, Y, model, numberens, learners) 


其 中 ,X 是 矩阵 数据 类 型 ,每 一 行 是 一 个 样本 ,每 一 列 对 应 样本 的 一 个 特征 ;YY 可 以 
是 数值 回 量 `. 类 别 回 量 .字符 数组 .元 胞 数组 或 痢 逻 和 辑 回 量 。 和 表示 啊 应 ,对 于 分 类 来 说 一 般 
就 是 一 个 类 别 标签 ,对 于 回归 来 说 就 是 一 个 数值 ,长 度 等 于 样本 的 个 数 ; model 表示 使 用 
的 算法 。 在 MATLAB 中 实现 的 集成 方法 根据 问题 的 目标 分 为 分 类 和 回归 ,对 于 分 类 又 
分 为 二 分 类 和 多 分 类 问题 。 对 于 二 分 类 适用 的 算法 有 'AdaBoostM1 ' ' LogitBoost ' , 
'GentleBoost', 'RobustBoost' (requires an Optimization Toolbox'" license), 'LPBoost ' 
(requires an Optimization Toolbox license), ' TotalBoost ' (requires an Optimization 
Toolbox license) ,'RUSBoost', 'Subspace','Bag'. ZAKARIA A ' AdaBoostM2 ' ,  LPBoost ' 
(requires an Optimization Toolbox license), ' TotalBoost ' (requires an Optimization 
Toolbox license? ,'RUSBoost','Subspace'.'Bag', PHA A 'LSBoost HI 'Bag'. 

numberens zi 38 2r 2S8 gg HIA ACT Boosting 算法 来 说 就 是 循环 的 次 数 ; learners 
为 一 个 字符 回 量 或 者 一 个 元 胞 RS 9326€ 2] a8 9 28788 . ,如 'tree' 表 示 决 策 树 作 为 弱 学 习 骨 。 

如 采用 一 张 图 来 表示 ,为 了 创建 一 个 集成 类 ,或 者 说 一 个 集成 学 习 方 法 对 象 , 必 须 准 
备 的 信息 如 图 11. 8 所 示 。 

调用 fitensemble 方法 后 会 返回 一 个 ClassificationEnsemble 类 的 实例 ,这 个 类 具有 
的 主要 属性 如 表 11. 1 所 示 。 
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Data matrix X 
Responses Y 

Ensemble Method — —» fitensemble——»- ensemble 


Number of Weak Learners in Ensemble i 


Weak Learner(x) 
图 11.8 集成 学 习 方 法 对 象 
X 11.1 ClassificationEnsemble 类 的 主要 属性 


= * 属 性 
字符 串 , 用 来 描述 ens XJ 2& Jn fuf H 2H. Ze 1-858 ^£ 2J S8. Xe WB: 
"WeightedSum fil Weighted A verage' 
ExpandedPredictorNames 字符 数组 ,和 XX 中 每 个 特征 的 名 称 


CombineWeights 


FitInfo 数值 数组 ,存储 拟 合 过 程 的 信息 
FitInfoDescription 字符 串 ,描述 FitInfno 内 容 的 具体 含义 
LearnerNames 元 胞 数组 . ze zn [85 FH 98 ^£ 2J $8 H3] 28 08 
Method Ff ER ,表示 使 用 的 集成 方法 
ModelParameters 训练 ens 的 参数 

NumObservations 数值 标量 ,观测 的 个 数 

NumTrained 标量 , 弱 学 习 嵩 的 个 数 

Prior 每 个 类 的 先 验 概率 (只 读 ) 
ReasonForTermination ^E f EB ,描述 结束 训练 的 原因 
ResponseName "ET B ,标签 变量 名 

Trained 元 胞 数组 ,存储 了 每 个 训练 好 的 弱 学 习 顺 的 信息 
TrainedWeights 数值 回 量 ,表示 每 个 弱 学 习 兹 的 权重 
W 每 个 样本 的 权重 

X 训练 集 

Y 类 别 标签 


返回 ClassificationEnsemble 类 的 内 置 方法 如 表 11. 2 所 示 。 
X 11.2 返回 ClassificationEnsemble 类 的 内 置 方法 


J 法 属 性 
crossval AC SL US WE 
resubLoss 计算 训练 或 者 测试 误差 
resubPredict 预测 


可 以 通过 view(ens. Trained (222 Jr 12K KIJE 15 b, T zs ET 98 2r 2S 28 COS SR AO BJ fei E. 
下 面 通过 实例 的 方式 ,展示 算法 的 MATLAB 实现 ,其 代码 如 下 (CAdaBoost Mat. m 文件 )， 
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% MATLAB Aif RdaBoost 算法 图 数 实 现实 例 
| clc 

| clear 

close 

: load ionosphere; 

$% 加 载 数据 , ionosphere 是 UCI 上 的 一 个 数据 集 , 具 有 351 个 预测 ,34 个 特征 ,二 分 类 标签 : good & bad 
ClassTreeEns = fitensemble(X,Y, 'AdaBoostM1',100, 'Tree'); 

sg 利用 AdaBoost 算法 训练 100 $, 88 ^ 2J 28 2S 08 7g CRUS , iR |n] — A ClassificationEnsemble 类 
rsLoss = resubLoss(ClassTreeEns, 'Mode', 'Cumulative'); 

$ 计算 误差 ,cumulative 表示 综合 1: T 分 类 器 的 误差 

plot(rsLoss); & 绘制 训练 次 数 与 误差 关系 

xlabel( Number of Learning Cycles'); 

: ylabel('Resubstitution Loss'); 


Xbar = mean(X) ; & 构造 一 个 新 的 样本 

[ ypredict score] = predict(ClassTreeEns, Xbar) s 预测 新 的 样本 ,利用 predict 方法 

% ypredict: 预 测 的 标签 score: 当前 样本 点 属于 每 个 类 的 可 信和 度 , 分 值 越 大 ,置信 和 度 越 高 
view(ClassTreeEns. Trained{5}, 'Mode', 'graph') ; & 显示 训练 的 弱 分 类 兹 ( 


自 先 ,利用 resubLoss PR IURI plot 图 数 计算 和 显示 训练 过 程 中 的 误 善 变化 ,如 图 11. 9 
所 示 。 
和 Figure 1 
XA) SgÍE(E) E50 播 入 山 IA Sm) #00 帮助 (H) 
Q&ubh«4s«oscr-an0Bam 
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Number of Learning Cycles 


图 11.9 误差 与 训练 次 数 关 系 


— ARR: BIS AdaBoosteuA 

从 图 11.9 FAULA HI B8 E UI SB HEIT T 2r 2S 38 I. 2T 25 $8 VR E, TE AI IST D 7], 
随后 又 构造 了 一 个 样本 ,利用 训练 得 到 的 模型 预测 这 个 新 样本 的 标签 ,得 到 该 新 样本 的 
label 是 'g', 两 个 类 的 置信 分 数 分 别 是 一 2. 946 和 2. 946。 最 后 还 想 知 道 得 到 每 个 弱 分 类 
需 的 情况 ,因此 ,通过 调用 view 困 数 ,能够 以 图 形 的 形式 显示 出 得 到 模型 Trained 属性 的 
信息 ,如 图 11. 10 所 示 。 

















3 »20.73947 





图 11.10 Trained 属性 信息 


通过 GUI A H1 nJ DUE HI SS do T 4r 28538 13 8] H3 4; $3 EX (HL 7J 0. 73947 ,选择 的 是 第 
三 个 特征 。 对 于 了 解 AdaBoost 算法 具体 实现 方法 ,读者 可 以 查看 MATLAB 中 的 
AdaBoost 15i fij , 
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在 介绍 & 均值 算法 (k-means) 之 前 , 先 介绍 一 下 动态 聚 类 算法 的 概念 。 动 态 聚 类 算法 
是 一 种 通过 反复 修改 分 类 来 达到 最 满意 聚 类 结果 的 迭代 算法 。 该 算法 的 基本 思想 是 : 首 
先 选 择 右 干 个 样本 点 作为 聚 类 中 心 ,再 按照 茶 种 聚 类 准则 (如 最 小 聚 类 准则 ) 使 样本 点 回 
各 中 心 聚 集 , 从 而 得 到 初始 聚 类 ; 然后 判断 初始 分 类 是 否 合 理 , 帮 不 合理 , 则 修改 分 类 ; 
如 此 反复 进行 修改 聚 类 的 迭代 算法 ,直至 合理 为 止 。 本 章 介 绍 的 均值 算法 就 是 一 种 典 
型 的 动态 聚 类 算法 。 


e 12.1 类 均值 算法 原理 


12.1.1 天 均值 算法 基本 原理 


k-means 算法 主要 解决 的 问题 如 图 12. 1 所 示 , 可 以 看 到 ,在 图 的 左边 有 一 些 没 有 标 
出 类 别 的 点 ,用 肉眼 可 以 看 出 来 这 些 点 有 4 个 点 群 ,但 是 怎样 通过 计算 机 程序 找 出 这 几 个 
点 群 来 呢 ? 于 是 就 出 现 了 k-means 算法 。 

k-means 算法 是 很 典型 的 基于 距离 的 动态 聚 类 算法 ,采用 距离 作为 相似 性 的 评价 指 
标 , 即 认为 两 个 对 象 的 距离 越 近 ,其 相似 度 就 越 大 。 该 算法 使 用 误差 平方 和 准则 作为 聚 类 
准则 ,寻求 的 是 使 误差 平方 和 准则 函数 最 小 化 的 肾 类 结果 站， 


12.1.2 天 均值 算法 的 实现 步 又 


k-means 算法 具体 实现 步骤 如 下 -2 。 





入 隐语 








图 12.1 k-means 算法 要 解决 的 问题 


(D 任 选 上 个 初始 聚 类 中 心 z1(1) ,zz(1),… ,zi(1)。 一 般 以 开头 个 样本 作为 初始 
中 心 。 

(2) 将 样本 集 的 每 一 样本 按 最 小 距离 原则 分 配给 个 聚 类 中 心 , 即 在 第 mx 次 迭代 时 ， 
£r dax—z; Gn 过 上 zf 一 zn) .3—1.2,-:.k.i;.WJ x€ f; an), f; MERE mK 
迭代 时 ,以 第 j 个 聚 类 中 心 为 代表 的 聚 类 域 。 

(3) 由 步骤 42) 计算 新 的 聚 失 中 心 , 即 : 


x; (11 十 1) = — 2T )|— bg) 
» 


1 r€ fm) 
式 中 ,Ni 为 第 i 个 聚 类 域 方 (0) 中 的 样本 个 数 。 基 均值 回 量 作为 新 的 聚 类 中 心 , 因 
为 这 样 可 以 使 误差 平方 和 准则 函数 ， 
J= >》 |z—zom-DI?. i=1,2,.%,k 


xE f; Cm) 
达到 最 小 值 。 
(4) Xi Zant D — Z; On) ,算法 收 伍 ,计算 完 否则 返回 到 步骤 (2) ,进行 下 一 次 
aS. 


根据 上 述 步 又 可 以 得 出 k-means 算法 的 输入 为 聚 类 个 数 & 及 包含 由 个 数据 对 象 的 数 
HJE; 输出 为 满足 方差 最 小 标准 的 个 聚 类 。 


12.1.3 天 均值 算法 实例 


为 了 便于 读者 理解 ,下 面 用 一 个 实例 来 展示 有-means 算法 的 整个 过 程 。 在 此 构造 一 
个 二 维 的 数据 集 , 如 表 12. 1 所 示 。 该 数据 集 包 含 20 个 样本 ,每 个 样本 都 有 两 个 特征 ,下 
面 就 要 展示 上 有 -means 贷 法 是 如 何 将 这 些 样本 划分 为 不 同类 别 的 。 


t 一生 


表 12.1 二 维 数据 集 





首先 把 这 些 样 本 点 在 卫 角 坐标 系 中 表示 出 来 ,结果 如 图 12. 2 所 示 。 

(1) 令 = 二 2, 选 初始 聚 类 中 心 为 Z1 (1) 王 2 一 
(0,0)',Z1(2)=7xs — (1 ,0)!., 

(2) 计算 样本 集中 的 每 一 样本 与 各 个 聚 类 中 心 的 
距离 ,并 按 最 小 距离 原则 分 配给 两 个 聚 类 中 心 。 


(os 
LAM 


因 为 | Be = (1) | uod | 上 | , Fir VJ SN. os 
ttl. 


| L1 — Mii (1) | — 











图 12 2 k-means 算法 样本 


| rJ 0 1 
| T? 一 Zl) | > D = ] 
0 0 
UE l 
| 一 区 | — 一 = 0 
0 0, 


AX || x; — ZZ. I 29 |l x2 — Z4 (D ll BEDA x4 € Zz CD, I], 
因为 上 zs 一 21(1) | =1< || z;—2Z:OD I =2, 所 以 z; € Zi OD 
因为 zx. 一 21(1) | 52> || r20 = 二 1, 所 以 x, EZ) 
同样 把 所 有 zs ems ，… ,zzo 与 两 个 聚 类 中 心 的 距离 都 计算 出 来 ,并 判断 每 个 样本 点 所 
属 的 类 别 ,可 以 判断 出 xs ,zz 都 属于 2Z,(1)。 因 此 分 为 以 下 两 类 ， 

G1 1) 一 《3 

G,(1) = (x, x4 sts »*** Tz) 

NI cx MeL 
(3) 更 新 聚 类 中 心 ,根据 新 分 成 的 两 类 建立 新 的 聚 类 中 心 。 

ZG = M X= 5a tn) = Hej 让 (0,0, 5)7 


Ni es 2 0 
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ZG) = 4- D X = Gib s br 二 x) 一 (5.67,5.33)1 
à x 


€G,O) 
CA) 判断 新 旧 聚 类 中 心 是 否 相 等 : 
因为 Z1(1) 关 2Z1(2),J =1,2, 所 以 转 到 步骤 (2)。 
(5) 重新 计算 zi eco ett m2 8l Zi1(2) ,Zs(2) 的 距离 ,并 按 最 小 距离 原则 ,重新 分 为 以 
下 两 类 。 
(Sr 





G (2) Mia ase pL ag No = 12 
(6) 更 新 聚 类 中 心 。 
Z(G)—4- D] X= Gm bb) = (1.25,1.13)" 
'lzeGQ O) 





ZG) = 4- 2j X = c Gs + ao Han bt a) = (7.67,7. 33)" 
IN. | 


EG, (2) 
C1) 判断 新 旧 聚 类 中 心 是 否 相 等 : 
因为 Z1 ZZ; (2) ,JJ 一 1,2, 所 以 转 到 步骤 (2) 。 
(8) 重新 计算 zi ,zs ttt ,Xo 到 2Z1(3) ,2Z;(3) 的 距离 ,并 按 最 小 距离 原则 ,重新 分 为 以 
下 两 类 。 

[8 

G: C3) 
(9) 更 新 聚 类 中 心 。 


(£9 sT» sC)» No = 12 


UD i 
Z (4) (7. 801.202" 
(10) 判断 新 旧 聚 类 中 心 是 否 相 等 : 
”1(4) = Z,C3) 
Z5, (4) = Z,() 
此 时 算法 收敛 ,计算 结束 。 聚 类 的 结果 如 图 12.3 
所 示 。 
k-means 算法 的 结果 主要 受 哪 些 因 素 的 影 啊 呢 ? 
在 实际 情况 中 , 聚 类 数目 & 的 选择 、 聚 类 中 心 的 初始 分 
4g .模式 样本 的 几何 性 质 等 因素 都 会 对 k-means 算法 
的 结果 产生 影响 。 
k 值 的 选择 是 影响 算 法 结果 的 决定 性 因素 之 一 。 
Æ k-means 算法 中 ,k 值 作为 算法 的 输入 量 , 一 旦 有 值 
选择 有 误 ,就 很 难得 到 有 效 的 聚 类 结果 。 
聚 类 中 心 的 初始 分 布 即 & 个 初始 聚 类 中 心 点 的 选 ”图 12.3 &A-means 算 法 的 聚 类 结果 








í. 99 4 
e a 
* 
" + 
a. r^s d i 
: 163 : 
x = 
= i 
H = 
"y aom 
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取 对 聚 类 结果 也 具有 较 大 的 影 啊 , 因 为 算法 是 随机 地 选取 任意 不 个 样本 作为 初始 聚 类 的 
中 心 :一旦 初始 值 选 择 得 不 好 ,就 可 能 导致 无 法 得 到 有 效 的 聚 类 结果 。 

模式 样本 的 几何 性 质 对 算法 的 聚 类 结果 也 具有 较 大 的 影响 ,如 果 样 本 的 维 数 很 大 , 则 
需要 的 时 间 会 很 长 ,这 对 算法 的 实用 性 会 产生 很 大 的 影响 。 


12.1.4 上 均值 算法 的 特点 


1. k-means 算法 的 优点 


OO FARE, ME. 
(2) AARRE RA B T RCE J Hoe n] fr Ai PE R 
(3) 时 间 复 杂 度 近 于 线性 ,而且 适 合 挖掘 大 规模 数据 集 。 


2. k-means 算法 的 缺点 


(1) Æ k-means 算法 中 上 值 必须 是 事先 给 定 的 ,但 是 值 的 选 定 是 非常 难以 估计 的 。 
很 多 时 候 ,事先 并 不 知道 给 定 的 数据 集 应 该 分 成 多 少 个 类 别 才 最 合适 。 

(2) Œ k-means 算法 中 ,首先 需要 根据 初始 聚 类 中 心 来 确定 一 个 初始 划分 ,然后 对 初 
始 划分 进行 优化 。 而 这 个 初始 聚 类 中 心 的 选择 在 &-means 算法 中 却 是 随机 的 ,一 旦 初始 
值 选 择 得 不 合理 ,就 可 能 无 法 得 到 有 效 的 聚 类 结果 。 

(3) M k-means 算法 框架 可 以 看 出 ,该 算法 需要 不 断 地 进行 样本 分 类 调整 ,不 断 地 计 
算 调 整 后 的 新 的 聚 类 中 心 , 因 此 当 数 据 量 非常 大 时 ,算法 需要 的 时 间 是 非常 多 的 。 


—— 12.2. 基于 k-means 算法 的 算法 改进 


12.1.4 节 中 提 到 了 k-means 算法 的 相应 缺点 ,其 中 上 & 值 需要 事先 给 定 和 初始 聚 类 中 
心 需 要 随机 选择 是 算法 的 两 个 突出 缺点 ,也 是 算法 急需 解决 的 两 个 问题 。 针 对 这 两 个 缺 
点 ;人 研究 者 也 在 不 断 地 进行 算法 改善 ,提出 了 一 些 关 于 上 值 选 取 和 初始 聚 类 中 心 选择 的 
k -means 改进 算法 。 接 下 来 就 介绍 一 下 这 些 k-means 改进 算法 。 


12.2.1 改善 大 值 选取 方式 的 大 -means 改进 算法 


在 k-means 算法 中 , 聚 类 数 的 值 是 需要 事先 给 定 的 ,然而 在 实际 应 用 中 ,通常 并 不 
和 若 氨 给 定 的 数据 集 应 该 分 成 多 少 个 类 别 才 最 合适 ,这 也 就 意味 看 在 很 多 情况 下 ,选择 
k-means 算法 进行 聚 类 分 析 是 不 可 行 的 。 但 是 与 其 他 算法 相 比 ,k-means 算法 又 有 看 许 
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多 其 他 算法 并 不 具备 的 优势 ,是 聚 类 分 析 中 的 一 个 较 好 的 选择 ,有 很 强 的 不 可 替代 性 。 那 
么 能 不 能 对 &-means 算法 做 出 改进 ,使 它 在 有 值 未 知 的 情况 下 仍 能 进行 聚 类 分 析 呢 ? UE 
案 是 肯定 的 。 下 面 就 介绍 一 种 在 不 值 未 知 时 仍 能 得 到 合理 划分 的 有 -means 改进 算法 。 

在 上 值 未 知 时 ,假设 给 定数 据 集 最 合理 划分 的 聚 类 数 为 k。 硅 在 实际 中 值 的 初始 
值 选择 为 Ai , 则 一 般 会 产生 以 下 两 种 情况 。 

(OD Ai 二 &, 说 明 至 少 有 一 个 合理 划分 的 类 被 再 次 划分 为 若干 个 类 。 

(2) ki 二 ,说 明 人 至 少 有 两 个 合理 划分 的 类 被 归结 为 一 类 。 

基于 这 两 种 情况 ,可 以 取 上 值 的 上 限 作 为 值 的 初始 值 ,运行 k-means 算法 得 到 初始 
聚 类 ,再 通过 判断 边界 距离 来 确定 一 些小 的 聚 类 是 否 应 是 同一 个 聚 类 ,若是 同一 个 聚 类 ， 
则 合并 这 些 聚 类 ,从 而 不 断 缩 小 聚 类 数 & 的 值 , 最 终 得 到 一 个 合理 的 划分 。 这 就 是 改善 大 
值 选 取 方 式 的 k-means 改进 算法 的 基本 思想 

改进 算法 的 具体 步骤 如 下 。 

COD 首先 取 k — Yn 作为 k 值 的 上 限 ( 通 常情 况 下 k 值 的 取 值 范围 为 [2, va], HP n 
为 样本 数 ) ,对 样本 集运 行 k-means 算法 得 到 上 个 聚 类 ， 

(2) 判断 个 聚 类 中 是 否 有 聚 类 的 边界 距离 小 于 设 定 的 国 值 , 硅 有 , 则 把 这 些 聚 类 合 
并 为 一 类 ; 符 没 有 ,此 时 的 & 值 即 为 最 合理 的 分 类 值 , 此 时 的 分 类 即 是 最 合理 的 分 类 , 算 

(3) 把 最 新 获得 的 值 作为 输入 对 样本 集运 行 & -means 算法 ,得 到 上 个 新 的 聚 类 。 

(4) 重复 步骤 (2) 和 步骤 (3) ,直到 得 到 一 个 合理 的 划分 。 


12.2.2 改进 初始 聚 类 中 心 选 择 方 式 的 上 -means 改进 算法 


k-means 算法 对 于 初始 聚 类 中 心 的 选择 是 随机 的 ,这 种 选取 方式 有 很 大 的 不 确定 性 ， 
很 可 能 会 叶 致 肾 类 的 结果 不 是 最 优 的 ,甚至 得 到 一 个 错误 的 聚 类 结 末 。 因 此 ,对 -means 
算法 中 初始 聚 类 中 心 选择 方式 的 改进 是 非常 必要 的 。 

在 实际 应 用 中 ,通常 希望 了 折 选 择 的 初 娘 聚 类 中 心 是 尽量 分 艇 的 ,但 是 仅仅 考虑 距离 因 
素 ,往往 会 取 到 离 群 点 作为 初始 聚 类 中 心 。 所 以 初始 聚 类 中 心 的 选择 除了 考虑 其 散布 程 
度 外 ,还 应 该 考虑 密度 因素 。 基 于 此 ,在 此 介绍 一 种 基于 最 近邻 相似 度 , 同 时 也 充分 考虑 
了 密度 因素 的 k-means 改进 算法 *， 

为 了 说 明 改 进 算法 ,做 了 如 下 定义。 

定义 1: 已 知 对 象 集 和 A 二 (zi,Xx2s，… ,Xn_1;Xn} 共 有 nn 个 每 聚 类 的 数据 点 ,集合 中 任 一 
数据 点 v; 的 密度 记 为 dens(zi) ,一 种 密度 计算 方法 可 定义 为 : 


<i 





dens(x,) = 


n 
X 


k=] 
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式 中 ,z; 是 一 个 关于 样本 点 间距 离 的 参数 ,数学 表达 式 为 : 
gz 一 E il 

AP, da = | r> z, ,a 为 密度 系数 ,可 以 取 大 于 1 的 任意 数 。 通 过 计算 发 现 ， 
dens(zi) 越 大 样本 点 zx; 周围 的 点 越 多 ,也 就 是 密度 越 大 ; dens(z;) 越 小 样本 点 x; 周围 的 
点 越 少 ,也 就 是 密度 越 小 。 

定义 2: 共计 最 近邻 (Shared Nearest Neighbor. SNNJ) 相 似 度 的 定义 为 : 对 于 相互 在 
对 方 最 近邻 列表 中 的 两 个 对 象 ， ——— SNN 相似 度 。 

下 面 通 过 一 个 简单 的 实例 来 介绍 SNN mpeg pe 

如 图 12.4 所 示 ,图 中 两 个 黑色 的 点 都 有 5 个 最 近邻 ,并 且 相 互 包含 。 其 中 黑 点 1 的 
最 近邻 点 有 2、.3、 4.6.7, 黑 点 2 的 最 近邻 点 有 1.4.5、 7、.8。 可 以 看 到 这 些 最 近邻 中 ,点 4 
和 点 7 是 两 个 黑 点 共享 的 ,因此 这 两 个 黑色 的 点 之 间 的 SNN 相似 度 就 是 2。 





图 12.4 两 个 点 之 间 SNN 相似 度 的 计算 


那么 样本 集中 所 有 样本 点 的 共享 最 近邻 相似 度 该 如 何 计算 呢 ? 根据 上 述 实例 ,可 以 
清楚 地 得 到 计算 过 程 : 首先 找 出 所 有 点 的 六 个 最 近邻 ,如 果 两 个 点 x; 和 xz); 不 是 相互 在 对 
方 的 个 最 近邻 中 , 则 共享 最 近邻 相似 度 赋 值 为 0, 否则 ,共享 最 近邻 相似 度 为 共享 的 近 


AA AR. 
介绍 完 上 述 的 两 个 定义 ,下 面 开 始 介绍 基于 密度 及 最 近邻 相似 度 的 初始 聚 类 中 心 选 
择 算 法 的 基本 思想 。 


(1) 根据 定义 1 计算 样本 集中 所 有 数据 点 的 密度 ,同时 设 定 一 个 最 近邻 相似 度 国 值 
Kr 

(2) 找 出 密度 最 大 的 数据 点 ,再 找 出 与 该 数据 点 的 最 近邻 相似 度 值 不 小 于 上 的 所 有 
数据 点 ,共同 组 成 集合 Mi 。 然 后 找 出 与 集合 Mi 中 所 有 数据 点 的 最 近邻 相似 度 不 小 于 + 
的 所 有 数据 点 ,再 并 人 集合 Mi ,重复 此 过 程 , 直 到 集合 Mi 不 再 发 生变 化 为 止 , 然 后 将 集合 
Mi 中 的 数据 点 从 样本 集中 删除 。 

(3) 在 样本 集中 剩 下 的 数据 点 中 找 出 密度 最 大 的 数据 点 ,重复 执行 步骤 (2) ,组 成 数 
EEM: ; 如 此 反复 ,直到 组 成 Mt_ ;个 集合 。 

(4) 将 样本 集中 剩余 的 数据 点 组 成 集合 M ,这 样 共 组 成 & 个 样本 集 M ，M: ,… Mi. 

(5) 将 各 样本 集中 的 数据 点 按 蜜 度 进 行 降序 排列 ,将 有 个 样本 集中 排 在 第 1 位 的 数 
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据点 组 成 一 个 新 的 初始 聚 类 中 心 的 集合 U, 则 集合 U 中 的 数据 即 为 个 初始 聚 类 中 心 。 

改进 的 上 -means 算法 中 初始 聚 类 中 心 选 取 的 具体 流程 如 下 。 

(1) 根据 定义 1 计算 所 有 数据 点 的 密度 。 

(2) 设 定 一 个 最 近邻 相似 度 的 靖 值 tt 之 1)。 

(3) 初始 化 分 类 样本 集 Mi —-—M,—U. 

(4) 找 出 密度 最 大 的 数据 点 并 人 集合 Mi ,在 样本 集中 找 出 与 此 数据 点 最 近邻 相似 度 
值 不 小 于 :i 值 的 点 ,并 人 集合 Mi。 

(5) 对 集合 M 中 所 有 的 数据 点 重复 执行 步骤 (4) 的 操作 ,直到 集合 Mi 不 再 发 生变 化 
HAE. 

(6) 将 集合 Mi 中 的 数据 点 从 样本 集中 删除 。 

(7) 在 样本 集 剩 余 的 数据 点 中 找 出 密度 最 大 的 数据 点 ,重复 执行 步骤 (4) 一 步骤 (6)， 
直到 生成 M， ;个 集合 为 止 。 

(8) 将 样本 集中 剩余 的 数据 点 组 成 集合 Ms , 共 形 成 个 新 的 样本 集 M 1 IM, SM, 

(9) 将 样本 集 Mi ,Ms,… Ms 中 的 样本 点 按 步 又 (1) 中 求 出 的 密度 进行 降序 排列 。 

(10) 初始 化 初始 聚 类 中 心 的 集合 U= 1{}。 

(11) 将 各 样本 集 Mi M:s M, 中 排 在 第 1 位 的 数据 点 并 入 集合 器, 集合 U 中 的 点 
就 是 初始 聚 类 中 心 的 初 值 。 


*- 12.3 k-means 算法 的 MATLAB 实践 


对 于 上 均值 算法 ,在 MATLAB 中 直接 调用 上 有 -means 函数 来 解决 上 均值 的 聚 类 问题 ， 
并 不 需要 对 有 -means 算法 进行 编写 。k-means PR ZR V] FH 77 3 2 : 


Idx = kmeans (X, k) 
[ Idx, C] = kmeans( X, k) 
[ Idx, C, sumD] = kmeans( X, k) 
[ Idx, C, sumD, D] = kmeans( X, k) 
[ … ] = Kmeans( -- , 'Paran1', 'Vall','Param2', 'Val2' …) 


|] 





PR RCE A t h RU X n3 12. 2 所 示 。 
R 12.2 参数 含义 


参 数 会 X 
X NX P 的 数据 矩阵 
k 表示 将 处 划分 为 几 类 ,k 为 整数 
Idx NX1 的 向 量 , 存 储 的 是 每 个 点 的 聚 类 标号 
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2 SX S X 
C kX P 的 矩阵 ,存储 的 是 & 个 聚 类 质心 位 置 
SumD 1X 的 和 回 量 ,存储 的 是 类 间 所 有 点 与 该 类 质心 点 距离 之 和 
D NxR 的 矩阵 ,存储 的 是 每 个 点 与 所 有 质心 的 距离 


参数 Paraml,Param2 等 可 以 设置 的 参数 值 及 含义 如 表 12. 3 所 示 。 
表 12.3 Param 的 参数 含义 
参 数 会 X 
欧 氏 距离 
"M 绝对 误差 和 ,又 称 为 
istance 本 EV s ra Et 
m 针对 向 量 
针对 有 时 序 关 系 的 值 
只 针对 二 进 制 数据 
失态 中 随机 选取 A 个 质心 点 
根据 X 的 分 布 范围 均匀 地 随机 生成 K 个 质心 
ari me Dy 2 ! . M" 
(初始 质心 位 置 选择 方法 ) | cluster’ 始 聚 关 阶 段 随机 选取 10%% 的 天 的 子 样本 (此 方法 初始 使 
用 'sample' 方 法 ) 
提供 一 个 kXP 的 矩阵 ,作为 初始 质心 位 置 集合 


'Replicates' TT 


现在 通过 MATLAB 实例 的 方法 ,在 MATLAB 中 输入 一 个 矩阵 ,运用 有 -means 算法 
对 矩阵 进行 聚 类 ,展示 在 MATLAB F} k-means 算法 的 具体 实现 (Kmeans Mat. m X. 
件 )。 在 实例 中 首先 随机 生成 两 组 数据 ,然后 ,通过 上 均值 算法 实现 自动 分 类 ,并 找到 两 组 
数据 的 中 心 点 ,最 后 ,通过 绘图 的 方式 绘制 出 分 类 的 数据 及 两 组 数据 的 中 心 点 ,如 
图 12.5 所 示 。 


$ MATLAB 目 市 天 均值 算法 图 数 kmeans 实现 
clc; 

clear; 

close all; 


X= [randn(100,2) * 0.75 + ones(100,2) ; randn(100,2) * 0.5 — ones(100,2) ]; 


& 产生 两 组 随机 数据 
[idx,C] = kmeans(X,2, 'Distance', 'cityblock', 'Replicates',5); 名 利用 上 均值 算法 进行 分 组 
plot(X(idx == 1,1),X(idx== 1,2), 'r. ', 'MarkerSize',12) & 绘制 分 组 后 第 一 组 的 数据 ， 
hold on 
plot{X( idx == 2,1),X(idx== 2,2), 'b. ', 'MarkerSize',12) 名 绘制 分 组 后 第 二 组 的 数据 


plot(C(:,1),C(:,2), kx','MarkerSize',15, 'LineWidth',3) 名 绘制 第 一 组 和 第 二 组 数据 的 中 心 点 
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legend( Cluster 1', 'Cluster 2', 'Centroids', 'Location', 'NW') 
title 'Cluster Assignments and Centroids' 
hold off 


«| Figure 1 


MHE 编辑 (E) 查看 (VW) REA IA 桌面 (D) 窗口 (W) 帮助 (H) 
OQé8Hà 5 ««osc.aaBgam 


* Cluster 1 
* Cluster 2 
A Centroids 





图 12.5 分 类 数据 及 中 心 点 
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在 统计 领域 里 ,主要 有 两 大 类 计算 问题 ,一 类 是 极 大 似 然 佑 计 的 计算 , 男 一 类 是 
Bayes 计算 。 巾 于 极 大 似 然 估 计 的 计算 类 似 于 Bayes 的 后 验 众 数 的 计算 ,因此 ,可 以 从 
Bayes 的 角度 来 介绍 统计 计算 方法 。 

Bayes 计算 方法 大 体 可 以 分 为 两 大 类 : 一 类 是 直接 运用 后 验 分 布 以 得 到 后 验 均 信 或 
后 验 众 数 的 估计 ,以 及 这 种 估计 的 渐 近 方差 或 其 近似 ; 男 一 类 算法 可 以 忌 称 为 数据 添加 
算法 ,是 近年 来 发 展 很 快 且 应 用 很 广 的 一 种 算法 , 它 不 是 二 接 对 复杂 的 后 验 分 布 进行 极 大 
化 或 模拟 ,而 是 在 观察 数据 的 基础 上 添加 一 些 “ 潜 在 数据 ”, 从 而 简化 计算 并 完成 一 系列 简 
单 的 极 大 化 或 模拟 。 

期 望 最 大 化 (Expectation Maximization. EM) 算 法 是 一 种 从 “不 完全 数据 ”中 求解 模 
型 参数 的 极 大 似 然 佑 计 方 法 。 "不 完全 数据 ?一 般 分 为 两 种 情况 : 一 种 是 由 于 观察 过 程 本 
号 的 限制 或 错误 ,造成 观察 数据 成 为 错漏 的 不 完全 数据 ; 一 种 是 参数 的 似 然 函数 耳 接 优 
化 十 分 困难 ,而 引入 额外 的 参数 ( 隐 含 的 或 丢失 的 ) 后 就 比较 容 匈 优化 ,于 是 定义 原 妈 观察 
数据 加 上 和 额外 数据 组 成 “完全 数据 ”, 原 娘 观 察 数据 日 然 束 成 为 “不 完全 数据 ”。 本 章 主 要 
介绍 EM 算法 及 EM 算法 的 一 些 改进 形式 。 


有 13.1 EM 算法 


13. 1.1 EM 算法 思想 


EM 算法 是 用 于 数据 缺失 问题 中 , 极 大 似 然 估计 方法 (Maximum Likelihood 


Estimate, MLE) B — f 2$ FH3S TUS TA . ERA TR TE fa] fie Aa XE a H ERSS o Ó 
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时 由 Dempster, Laird 和 Rubin!" F 1977 年 提出 的 求 参 数 极 大 似 然 估计 的 一 种 方法 。 
EM 算法 的 出 发 点 是 假设 有 一 个 训练 集 {x 中 ,zx I x00 BUE mm 个 独立 的 样本 。 
如 果 和 希望 找到 一 组 合适 的 参数 对 模型 p(x,z) 建 模 , 似 然 函 数 表示 为 ， 


1(0) = »logp(r;80 = > log ?,p r.z50) 
如 果 试 图 直接 最 大 化 上 面 的 似 然 函 数 来 找到 9 通常 比较 困难 ,因为 = JR ER 
和 若 的 。 在 这 种 悄 帝 下 ,EM 算法 提供 了 一 种 有 效 的 最 大 化 似 然 函 数 合计 的 方法 。 它 的 思 
路 是 既然 直接 最 大 化 1(0) 比 较 困难 , 那 就 间接 求解 最 值 。EM 算法 首先 构造 1(0) 的 一 个 
下 界 LOB(E 步 ) ,然后 优化 这 个 下 界 ,提升 1(0) 的 值 (M 步 )。 如 图 13. 1( 详 见 文 前 彩 捅 ) 
所 示 , 红 色 表 示 真 实 的 似 然 函数 ， 绿色 和 蓝 色 都 是 在 某 个 时 刻 1(0) 的 一 个 紧 下 界 , 通 过 不 
Ir db f A 45 P Jokes yr 10D B EK B. 





图 13.1 EM 算法 的 思想 


13.1.2. MWR RRAK K MIR ii tF 


因为 EM 算法 可 以 理解 为 极 大 似 然 估计 的 一 种 特殊 情况 ,所 以 在 介绍 EM 算法 的 具 
体 理论 之 前 , 先 回顾 一 下 似 然 函数 和 极 大 似 然 估计 的 内 容 。 
假设 参数 为 0 的 概率 密度 函数 p(xz19) ,9 的 参数 空间 为 @ 。 并 且 有 取 自 同一 分 布 的 
样本 量 为 m 的 样本 , 即 久 = {Xi ,X;，…,X,) 独 立 同 分 布 于 ,而 {x ,zc eua ) HR 
应 {Xi 2X, X, 的 观测 值 。 则 样本 的 联合 概率 密度 函数 为 ， 
BEKxIo-[l»scio 


i=] 
A 


1(0 | X) = I[ pc D., 6€8 


M LO DOREEN E In XE TE AS E (x0 ,zx 的 似 然 函数 ,和合 称 似 然 函数 ,注意 一 
般 为 了 把 乘法 变 成 加 法 ,会 对 似 然 函 数 取 对 数 , 称 为 对 数 似 然 丽 数 . 为 了 表述 方便 ,在 没 


: 172 : 机 器 学 习 入 门 到 实战 一 -MATLAB 实 践 应 用 


有 特别 说 明 的 情况 下 ,后 文中 的 似 然 银 数 指 的 是 对 数 似 然 限 数 。 

TUER ER C (01 半 ) 是 参数 9 的 函数 。 显 然 , 随 着 参数 9 在 参数 空间 @ 的 变化 , 似 然 函数 
值 也 要 变化 。 而 极 大 似 然 估 计 的 目的 就 是 在 样本 点 {x ”,zx”,… ,zx”}) 给 定 的 情况 下 , 寻 
找 最 优 的 9 来 最 大 化 1(0|XX), 即 : 

0 = arg max/(6 | XD 


此 时 ,0” 就 称 为 2 的 极 大 似 然 个 计 值 。 


13.1.3 Jensen 不 等 式 


13.1.2 节 讲 了 EM 算法 要 解决 的 问题 ,也 就 是 最 大 化 含有 隐 变 量 的 似 然 函数 。 下 面 
就 具体 讲解 EM 算法 ,但 是 在 EM 算法 中 有 一 个 关键 的 工具 , 它 对 于 理解 和 推导 EM 算 
法 至 关 重 要 ,这 就 是 Jensen 不 等 式 。 因 此 这 里 首先 介绍 Jensen 不 等 式 的 概念 和 绪论。 

令 表示 一 个 定义 在 实数 域 上 的 函数 . 如 果 这 个 函数 的 二 阶 导数 产 (z) 三 0, 则 表示 
ff 是 一 个 凸 函数 ; 如 果 三 是 定义 在 多 维 空间 的 一 个 函数 , 则 当 它 的 海 森 矩阵 H-OGEÉIE 
定 ) 时 ,了 是 凸 函数 。 相 应 地 ,严格 凸 函 数 的 条 件 是 了 六 (zx) 二 0 或 日 二 >0。 基 于 这 样 的 前 提 ， 
Jensen 不 等 式 的 定义 如 下 ， 

理论 : f ERALAR, A 表示 一 个 随机 变量 ,那么 有 : 

El FO] fCEX) 

如 果 f Eh RRIA ELX] (EX) 4 HAN X 是 一 个 常数 ; 相应 地 ,如 
R 了 是 凹 图 数 , 则 得 到 相反 的 结论 , 即 EL £OXO Jt fCEXO, A 13. 2 所 示 为 关于 Jensen 
不 等 式 的 直观 解释 。 





ELfQ] -- X --- 


图 13.2 Jensen 不 等 式 的 图 形 化 理解 


13.1.4 EM 算法 理论 和 公式 推导 


前 面 回顾 了 似 然 图 数 和 极 大 似 然 佑 计 的 相关 内 容 , 下 面 开 始 介 绍 EM 算法 的 具体 推 
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导 , 还 是 从 对 数 似 然 函数 开始 ,假设 Q; 表示 关于 z 的 分 布 ,满足 > ,Qi(ze ) —1.Q RP) 


UO 


O, D 
1(0))= »'logp(r;0 = > log > p(x,z;0) (13.1) 
i=] i=] z 
C: (1) 20 :0) | 
= 2, 2,Q ("3 dre T E13. 2) 
! (x ,zd 0) uu 
22.2.96 Ig Gs ps SE (13. 3) 


式 (13. 1) 是 根据 定义 ; 式 (13.2) 做 了 一 个 恒 等 变 换 , 分 母 除 以 QG), 4r 3E VA 
Q;(z'?); 式 (13.3) 则 使 用 了 Jensen 不 等 式 。 此 时 的 f Ox) = loge 是 一 个 凹 函 数 ， 
39 G0) PG 39) RRE ORTER so 的 期 望 ,zm IA JH Q G9. 
则 根据 Jensen 不 等 式 就 有 : 

rM si vum E - "m z(? 10) 
(Eea [ac > E Dr m )] 

把 上 式 中 的 期 望 和 FABRORUREI I 大 式 ,就 得 到 了 式 (13. 3) 的 结果 。 式 (13. 32 ik 
明 对 于 任意 的 Q, ,得 到 了 原始 似 然 图 数 的 一 个 下 界 。 那 么 如 何 选择 Q, 呢 ? 回想 EM 算 
法 的 策略 是 找到 原始 似 然 函数 的 一 个 紧 下 界 , 也 就 是 说 在 某 个 9 处 ,EL fF(X)]= (EX)，。 
在 Jensen 不 等 式 中 ,这 个 结果 成 立 的 条 件 是 X 是 一 个 第 数 。 对 应 这 里 是 : 

p ,z 8) 


Q; ( z? ) C 
这 意味 着 Qi(z@e )ccpCze 29 0 ,又 因为 Qi GO?) — 1, 所 以 有 : 


Q, Ce® ) u p rU. (1) ;0) p Gr d ;0) 
tnl. 2 ipG' ss zO 9) p ;0) 

这 说 明 Q; 其 实 对 应 着 < 中 ei 上 面 推导 中 分 别 使 用 了 边缘 分 布 和 条 件 概 率 

的 概念 。 至 此 ,通过 选择 这 样 一 个 Q 得 到 了 似 然 国 数 的 一 个 紧 和 下界 。 下 一 步 最 大 化 的 步 

又 就 是 更 新 0 以 最 大 化 这 bins. Er 

pOX. 2750) 

bOLX;0,44) 

- Xocix, ;0 wa) logp(X,Z;0)— 2p ZIX; 6) logp ZI X504) 


=Q, Oaa) - AE IC 
式 中 ,X.Z 表示 对 于 所 有 的 样本 构成 的 集合 。 那 么 最 大 化 CCQ,0) 等 价 于 最 大 化 
QCG.04:0 ,因为 它们 之 则 只 相差 一 个 和 常数。 为 外 公式 中 的 0 是 已 知 的 。 
总 结 起 来 ,EM 算法 伪 代 码 可 概括 为 以 下 两 步 , 重 复 这 两 个 步骤 直到 收敛 : 


"E plz La 
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(OD iT «€ £RIXi04D. 
(2) 计算 新 的 Gs ,由 下 式 给 出 : 
O = argmax4Q (0,0.) 
其 中 : 
Q(0.04)0 = > plZ | KX;0u) logp(X,Z;0) 


步骤 (1) 与 (2) 反 复 迭 代 直 至 满足 某 停止 规则 为 止 。 一 般 迭 代 到 | gs。 一 gu | 或 
| QC aw Ooa) — QCO ua ta) | 充分 小 时 停止 ,至 此 算法 结束 。 


13.1.5 EM 算法 的 收敛 速度 


介绍 完 EM 算法 的 具体 内 容 , 接 下 来 分 析 一 下 EM 算法 的 收敛 速度 。 将 第 上 月 步 时 对 

应 的 参数 表示 为 0*, 可 以 看 出 ,EM 算法 定义 了 一 个 映射 90:7 二 (0(k)), 其 中 vo» — 

(V, (00 V, (0) ,,V,C0)) EM 算法 收敛 时 ,如 果 收 敛 到 映射 的 一 个 不 动态 ,那么 0" = 
dW; (0) 
dð; ^ 





V(0*), ik V' (0) 表 示 Jacobi EE., EG, DIRAJ 


由 

a —w« p ve 
Xt Y Hít Taylor 展开 得 : 

gH 0* zc Y'(0*5(0*— 0* ) 
EM 4E 1E Ws ir csi ss n] EAE XN : 


"E lim | gmg" | 
P es le-o] 


迭代 算法 的 收敛 率 o FTE wv'O* ) 的 最 大 特征 值 ,Jacobi 矩阵 w (9* ) 表 示 信 息 
缺失 比例 ,所 以 o 是 一 个 可 以 有 效 地 表示 缺失 信息 比例 的 一 个 标量 ; 缺失 信息 的 比例 即 
单位 矩阵 工 减 去 已 观测 到 的 信息 占 完 全 信息 的 比例 ,wo 表示 完全 信息 ,6 表示 已 观测 到 的 
信息 ,7 表示 缺失 信息 ,其实 就 是 : 

y = w Ó 
w'(8*) — 1-5 

EM 算法 的 收敛 速度 与 缺失 信息 比例 V (0* ) 这 个 量 紧 密 相 关 ,W (9* ) 是 EM 算法 
中 映射 的 斜率 ,由 它 来 控制 EM 的 收敛 速度 ,WW (O* ) 的 最 大 特征 值 o 称 为 全 局 收敛 率 , 由 
于 o 越 大 收敛 速度 越 慢 ,因此 定义 矩阵 S—I— V' (0* 2g ERR IEE.S— I— o 被 称 为 全 局 
加 速 。 可 以 得 出 结论 , 当 缺 失信 息 比 例 较 大 时 ,EM 算法 的 收敛 速度 是 特别 慢 的 。 
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13.1.6 EM 算法 的 特点 


1. EM SX BJ DL £a 


EM 算法 的 突出 优点 是 当 存 在 数据 缺失 问题 时 , 仍 可 以 对 参数 进行 极 大 似 然 佑 计 , 而 
晶 算 法 比较 简单 ,具有 良好 的 可 操作 性 、 收敛 性 。 


2. EM SE BS UR ra 


(1) 缺失 数据 较 多 的 情形 下 ,算法 的 收敛 速度 比较 慢 。 

(2) 对 于 某 些 特殊 的 模型 ,要 计算 算法 中 的 M, 即 完成 对 似 然 函数 的 估计 是 比较 困 
难 的 。 

(3) 某 些 情况 下 ,要 获得 EM 算法 中 下 的 期 望 显 式 是 非常 困难 或 不 可 能 的 。 

(4) EM 算法 最 终 会 逐步 收敛 到 一 个 稳定 点 ,但 是 只 能 保证 收敛 到 似 然 函数 的 稳定 
点 ,而 不 能 保证 是 极 大 值 点 。 





[D 13.2 EM 算法 的 改进 


EM 算法 因为 其 能 简单 地 执行 及 能 够 通过 稳定 上 升 的 算法 得 到 似 然 吨 数 最 优 值 或 局 
部 最 优 值 ,具有 极 踢 的 适用 性 及 可 操作 性 。 但 如 之 前 所 识 , EM 算法 不 可 避免 地 人 存在 一 些 
缺点 ,为 了 将 EM 算法 更 好 地 应 用 于 各 领域 ,人 们 对 其 做 了 多 种 变型 和 改进 。 本 万 主要 
讲述 针对 诸多 问题 ,EM 算法 的 各 种 改进 和 变型 。 


13.2.1 Monte Carlo EM 算法 


由 于 EM 算法 的 M 步 ( 极 大 化 ) 基 本 等 同 于 完全 数据 的 处 理 , 因 此 在 一 般 情 况 下 M 
步 的 计算 是 比较 简便 的 。 然 而 下 步 ( 求 期 望 ) 的 计算 却 需要 在 观测 数据 条 件 下 的 求 “ 缺 失 
数据 ”的 条 件 期 望 , 然 后 再 求 完 全 数据 下 的 期 望 对 数 似 然 , 即 求 出 QCO 100, TESK BHL B E 
程 中 ,在 某 些 情况 下 获得 期 望 的 显 式 表示 是 很 难 的 ,计算 也 是 比较 困难 的 ,这 就 限制 了 
EM 算法 的 使 用 ,基于 此 ,Walker 提出 用 Monte Carlo 模拟 的 方法 来 近似 实现 求解 下 步 
积分 ,这 就 是 Monte Carlo EM 算法 (MCEM $$ i55, 

MCEM 算法 的 内 容 如 下 。 

在 玉 步 的 计算 过 程 中 ,第 十 1 步 用 下 面 的 两 步 代替 。 

(OD 由 pCylz,0*) 中 随机 抽取 mmx(8) 个 数 , 构 成 独立 同 分 布 的 缺失 数据 集 yi ys 
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ym ,集合 中 每 一 个 y; 部 用 来 补 元 观测 数据 ,这 样 就 构成 一 个 完全 数据 的 集合 : om 
(Eyi) o 


(2) 计算 


mik) 


c l | ! 
Q?* F1) (8| 0*) = ———— }? logp(Cz;|0) 
mk) 2; 


得 到 的 Q*+?(9|19*) 就 是 QCX09 的 Monte Carlo 估计 ,而 且 只 要 m 足够 大 ,就 可 以 认为 
QET? (0|0*) 5 Q(010*) 基 本 相等 。 

在 完成 上 面 两 步 之 后 , 接 下 来 在 M 步 中 就 可 以 对 Q*+?(9|9*) 进 行 极 大 化 求解 ,得 到 
oret 

在 使 用 MCEM 算法 中 ,有 两 点 要 考虑 : 首先 一 个 问题 是 mx() 的 确定 ,MCEM 算法 
的 结果 精度 主要 依赖 于 所 选择 的 ma(k) ,从 精度 考虑 12(R) 目 然 越 大 越 好 ,但 是 如 果 m CR) 
过 大 会 导致 计算 速度 变 慢 ,所 以 m(k) 的 选择 极为 重要 ,推荐 生 略 是 在 初期 的 迭代 中 使 用 
较 小 的 并 随 着 迭代 的 进行 逐渐 增 大 m OO ,以 减 小 使 用 Monte Carlo 在 模拟 计算 Q 时 导致 
的 误差; 另 一 个 问题 是 对 收 人 鳅 性 进行 判断 ,MCEM 算法 和 EM 算法 收 敏 方式 不 同 , 根 据 
上 述 理论 ,这样 得 到 的 0: 不 会 收 合 到 一 点 ,而 是 随 着 授 代 的 进行 ,0* 的 值 最 终 在 真实 的 最 
大 值 附近 小 幅 跳 路 ,所 以 在 MCEM 算法 中 ,往往 需要 借助 图 形 来 进行 收敛 性 的 判别 。 在 
经 过 多 次 迭代 之 后 ,假如 估计 序列 围绕 着 96=9* 上 下 小 幅 波 动 ,就 认为 估计 序列 收 化 了 ，。 


13.2.2 ECM 算法 


在 前 面 讲 述 完 针对 EM 算法 的 下 步 进行 改进 之 后 ,自然 就 会 想到 继续 改进 M 2b BS 
计算 。 

EM 算法 的 吸引 力 之 一 就 在 于 Q(919*) 的 极 大 化 计算 通常 比 在 不 完全 数据 条 件 下 的 
极 大 似 然 估 计 简 单 ,这 是 因为 Q(9190*) 与 完全 数据 下 的 似 然 计算 基本 相同 。 然 而 ,在 某 些 
情况 下 ,M 步 没 有 简单 的 计算 形式 ,QC(9019*) 的 计算 并 没有 那么 容易 实施 ,为 此 人 们 提出 
了 多 种 改进 策略 ,以 便于 M 步 的 实施 。 改 进 M 步 的 一 个 好 的 方法 是 避免 出 现 迭 代 的 M 
步 ,可 以 选择 在 每 次 M 步 计 算 中 使 得 Q 函数 二 大 , 即 保证 QC 105) —QC9* [055 ifi E 
极 大 化 它 。GEM 算法 就 基于 这 个 原理 ,在 每 个 迭代 步 又 中 GEM 算法 部 增 大 似 然 尔 数 的 
值 。Meng 和 Rubin 于 1993 年 提出 的 ECM 算法 是 GEM 算法 的 子 类 ,但 是 有 更 广泛 的 
hy F^", 

ECM FN F3 Seb BUE TCR M 步 , 用 一 系列 计算 较 简 单 的 条 件 极 大 化 (CM) 步 来 
RE M 步 , 它 每 次 对 0 求 函 数 Q 的 极 大 化 ,都 被 设计 为 一 个 简单 的 优化 问题 ,人 们 称 这 一 
系列 较 简 单 的 条 件 极 大 化 步 的 集合 为 一 个 CM 循环 ,因此 认为 ECM 算法 的 第 次 迭代 
Pe ds b ENS k K CM 循环 。 


981385 HERAA A 


ECM 算法 的 第 有 十 1 次 渤 代 步骤 如 下 。 

(OD S S 表示 每 个 循环 里 CM 步 的 个 数 , 对 =1,2,…,S, 第 & 次 迭代 过 程 的 第 有 次 
CM 循环 过 程 中 ,第 * 个 CM 步 需要 在 约束 条 件 

g, (0 = g, (g*G-D/8 ) 

下 面 求 函数 QOO BI Ig X fb. Hop 0760 7/9 S k IX CM 循环 的 第 (s 一 1) 个 CM 步 得 
到 的 估计 值 。 

(2) 当 完 成 了 S 次 的 CM 步 的 循环 后 , 令 096? = gtt- ,并 进行 第 有 十 1 次 的 
ECM FH E HER. 

因为 每 一 次 CM AA T ERA Q, BI QCO^ 79 |0 =Q 0*9. BELL S £A ECM 算 
法 是 GEM 的 一 种 。 为 了 保证 ECM 算法 的 收敛 性 ,需要 确保 每 次 的 EM 步 的 循环 都 是 在 
任意 的 方 回 上 搜索 QOO 图 数 的 最 大 值 点 ,这 样 ECM 算法 当 — 0 的 原始 空间 上 
进行 极 大 化 ,可 以 保证 在 EM 收 钙 的 基本 同样 的 条 件 下 收敛 到 一 个 稳定 点 ,与 EM 算法 

- 样 ,ECM 算法 也 不 能 保证 一 定 收 钱 到 全 局 极 大 ere 

下 面 考虑 ECM 算法 的 收敛 速度 ,与 EM 算法 相似 ,ECM 算法 的 全 局 收敛 速度 表 

IRN: 


I lim | g*1— g* | 
本 一 有 | 


AX ABC BC X o 等 于 和 矩阵 亚 '(0* ) 的 最 大 特征 值 , 由 于 po 值 越 大 缺失 的 信息 比例 
越 大 ,收敛 速度 越 慢 ,因此 算法 的 收敛 速度 定义 为 1 一 o。 通 过 计算 看 出 ,ECM $E 1E 93x 
[Ak BEBE A 5; EM 算法 相同 或 相近 ,但 是 就 迭代 次 数 来 说 ,ECM 算法 要 比 EM 算法 快 。 

根据 ECM 算法 理论 ,可 以 看 出 构造 有 效 的 ECM 算法 是 需要 技巧 的 ,需要 对 约束 条 
件 进 行 选择 。 习 惯 上 可 以 自然 地 把 0 分 成 S 个 子 疝 量 9== (0 ,0,,…,0s)。 然 后 在 第 :个 
CM 步 中 ,固定 9 其 余 的 元 系 对 求 909, 函数 Q 的 极 大 化 。 这 相当 于 用 g, (6) 二 (0 ,0,,…:， 
0 0 epit ,0,) 作 为 约束 条 件 。 这 种 策略 被 称 为 迭代 条 件 模 式 。 

根据 算法 的 特点 ,可 以 看 出 ECM 算法 有 如 下 优点 。 

(1) WÈ M 步 没有 简单 化 形式 ,CM 循环 通常 能 简化 计算 。 

(2) ECM 算法 是 在 0 的 原始 参数 空间 进行 极 大 化 ,更 加 稳定 ,能 稳定 收敛 。 


13.2.3 ECME 算法 


ECME 算法 是 Lin 和 Rubin Æ 1994 年 为 了 替换 ECM 算法 的 某 些 CM 步 而 提出 来 
的 , 它 是 ECM 算法 的 一 种 改进 形式 ,ECME 算法 的 特点 就 是 在 CM 步 极 大 化 的 基础 上 ， 
即 针对 受 约束 的 完全 数据 对 数 似 然 函 数 的 期 望 Q(910) 进 行 极 大 似 然 估计 ,并 且 在 一 些 
步骤 上 极 大 化 对 应 的 受 约束 的 实际 似 然 函数 L(9|2) 5 。 

ECME 算法 的 第 十 1 次 迭代 的 M 步 (信用 ECM 算法 中 的 一 些 从 号 ) 形 式 为 : 


re 
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el = 1 

(D 3 sC€ Wolf] ok 00 v9 R18 QC9U 99 195572QC0[ 0*5 ; 

(2) MX sE V, Bj ok 00 *"9 R18 L(*795)—L(OD. 

E 2E fl CM 步 不 断 重复 ,迭代 完 后 ,得 到 0^ ,继续 进行 第 有 & 十 2 步 的 下 步 计 算 , 直 至 
收敛 。 

从 这 里 可 以 看 出 ,这 一 算法 拥有 EM 和 ECM 两 种 算法 的 稳定 单调 收敛 特性 ,以 及 相 
对 较 快 的 收 伍 方法 , 即 实 现 EM 算法 基本 的 简单 性 。 另 外 可 以 看 出 ECME 能 比 EM 和 
ECM 算法 拥有 更 快 的 收敛 速度 ,从 和 迭代 次 数 及 迭代 至 收敛 所 需 时 间 都 要 快 。 这 一 改进 主 
要 有 两 个 原因 : 第 一 ,在 ECME 算法 中 的 某 些 极 大 化 步 , 居 于 完全 数据 的 实际 似 然 郴 数 
被 条 件 极 大 化 了 ,而 不 是 像 之 前 的 EM 和 ECM 算法 那样 近似 ; 第 二 ,ECME 算法 可 以 在 
极为 有 效 的 地 方 , 对 那些 受到 约束 的 极 大 化 进行 快速 收敛 的 数值 计算 。 

ECME 算法 和 EM 算法 .ECM 算法 一 样 "E Bu SA BE d 0*—0* Bip EO" 上 的 导 
2C C BILL SS) D XE. ,是 通过 已 观测 数据 .缺失 数据 、 完 全 数据 信息 阵 来 计算 的 。 经 过 计算 证 
5:.ECME 算法 的 收敛 速度 是 快 于 EM, ECM 算法 的 。 虽 然 算 法 的 计算 方法 是 比较 复杂 
的 ,但 是 可 以 从 直观 上 看 出 ,ECME 算法 得 出 的 结果 是 更 为 精确 的 ,因为 算法 在 CM 步 上 
极 大 化 实际 是 似 然 函 数 L(9|12Z) ,而 不 是 完全 数据 对 数 似 然 函 数 的 期 望 Q(010*), 毕 竞 Q 
图 效 是 近似 的 。 

总 体 来 说 ,就 迭代 次 数 及 实际 需要 的 时 间 来 看 ,ECME 算法 是 优 于 EM, ECM 两 种 算 
法 的 ,尤其 是 问题 比较 复杂 的 时 候 。 


(7 13.3 EM 算法 的 MATLAB 实践 


EM 算法 作为 一 种 数据 添加 算法 ,在 近 几 十 年 得 到 迅速 的 发 展 。 这 主要 源 于 当前 科 
学 研究 及 各 方面 实际 应 用 中 的 数据 量 越 来 越 大 ,经 常 存在 数据 缺失 或 不 可 用 的 问题 ,这 时 
候 直 接 处 理 数据 通常 是 比较 困难 的 。 虽 然 数据 添加 办 法 有 很 多 种 ,包括 神经 网 络 拟 合 、 添 
补 法 .卡尔 曼 滤 波 法 等 ,但 是 EM 算法 有 算法 简单 .能 非常 可 靠 地 找到 “最 优 的 收敛 值 ”等 
突出 优点 ,所 以 EM 算法 能 够 得 到 迅速 普及 。 

随 着 理论 的 发 展 ,EM 算法 已 经 不 再 只 是 用 在 处 理 缺 失 数据 的 问题 上 , 它 所 能 处 理 的 
问题 已 经 越 来 越 广泛 。 有 时 候 缺 失 数据 并 非 是 真 的 缺少 了 ,而 是 为 了 简化 问题 而 采取 的 
策略 ,这 时 算法 被 称 为 数据 添加 技术 ,所 添加 的 数据 通常 被 称 为 “潜在 数据 ”, 复 杂 的 问题 
通过 引入 恰当 的 潜在 数据 ,往往 能 够 得 到 有 效 的 解 。 

本 节 将 借助 一 个 具体 的 模型 实现 一 个 EM 算法 。 之 所 以 要 借助 一 个 具体 模型 是 因 
为 EM 算法 相当 于 一 个 框架 , 它 描述 了 对 于 含有 因 变量 这 一 类 问题 的 求解 方法 。 对 于 具 
体 的 模型 ,E 步 和 M 步 的 计算 表达 式 也 不 相同 。 本 节 以 高 斯 混合 模型 为 例 ,说 明 如 何 利 
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H MATLAB 实现 EM 算法 。 在 高 斯 混合 模型 中 ,存在 隐 变 量 Z, 因 为 Z 是 不 知道 的 ,所 
以 可 以 看 作 缺 失 值 。 现 在 存在 一 些 数据 ,需要 找到 一 个 很 好 的 模型 刻画 这 些 数据 的 分 布 ， 
这 就 可 以 利用 EM 算法 来 优化 参数 。 在 EM 算法 中 ,E 步 求 解 一 个 后 验 概率 ,得 到 原 优化 
目标 的 一 个 紧 下 界 ,M 步 利 用 王 步 求 得 的 参数 最 大 化 优化 目标 。 对 应 于 高 斯 混合 模型 ， 
E EM. 





wP = Q(z —;|zx")-—P(?"-—7jlzx";$,5,.2) 
BE | Op —J 
k 
» Aat be —Jd 4) 


一] 


分 布 plz? =j) 一 »[* 20. A — ] Ha |g" =s nfus 3 都 是 已 知 ， 


j=] j 


所 以 可 以 求 出 wr? ,在 M 步 中 需要 最 大 化 : 
» 2; Q; (z?)log px z” 494052) 





j=] 0 EE Cs) 
m E ; ; i ' | | 
ici ji Q;(z" = j) 
5 ; i L9 QA — 4. ™ i 
- Y Plof log 26 lz — jme Dp? = jim 


对 上 式 求 最 大 化 , 求 导 等 于 0 就 得 到 了 参数 ($8,n,5) 的 更 新 公式 : 
站 一 Ls 


m 3 


In 
> w? r G) 
i=] 
mn 
(1) 
b Wj 
1: 二] 


Hj 一 


ni 
TRE NE. LAT 
| 2.uPG pj) x 1t; ) 
y m dE LL 
to m 
J » vw? 
i=] 


利用 EM F BS b 3L E KM E EMA PARTAR . 8n 5 AR., E E SE. 
代码 如 下 (EM. m X ff»; 


clc 


clear 


close all 
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mul = [12]; 
sigmal = [3 0.2; 0.2 2]; 


mit = [m7 L-2]; 
sigma2 = [2 0; 0 1]; 


& 两 个 高 斯 的 数据 样本 

X= [mvnrnd(mul,sigmal,200); mvnrnd(mu2,sigma2,100)]'; 名 拟 合 的 数据 

[nbVar, nbData] = size(X); s 数据 的 维度 和 个 数 

& 定义 一 个 结构 体 用 于 保存 模型 参数 和 配置 

model.nbStates = 2; s ERS 3 个 取 值 ,对 于 GMM 来 说 就 是 3 个 成 分 
model.nbVar = nbVar; $ 数据 的 维度 

model. nbData = nbData; 

diagRegularizationFactor = lE - 4; % 正则 化 项 ,可 选 参数 
——— ro E — 
名 把 数据 按照 大 小 分 成 nbStates 个 段 ,然后 用 每 段 范围 内 的 数据 计算 初始 值 

s 把 数据 按照 某 个 维度 打 乱 排序 

[B, I] = sort(X(1, :)); S 按照 第 一 行 排序 返回 索引 
1 排序 后 的 数据 

Sep = linspace(min(Data(1,:)), max(Data(1,:)), model.nbStates + 1); 

& 分 别 对 每 个 段 初始 化 


for i= l1:model.nbStates 
idtmp = find(Data(1,:)»-» Sep(i) & Data(1,:)« Sep(i* 1)); 要 返回 数据 段 的 索引 


model.Priors(i) = length( idtmp); 和 初始 先 验 为 数据 点 的 比重 
model. Mu( :, i) = mean(Data(:,idtmp)'); s 初始 化 均值 
model. Sigma( :, :, i) = cov(Data(:,idtmp)"'); 当初 始 化 协 方差 矩阵 


* 正则 化 防止 协 方差 矩阵 行列 式 为 0, 出 现 计算 的 不 稳定 性 
model.Sigma(:,:,i) = model. Sigma( :, :, i) t eye(nbVar) * diagRegularizationFactor; 
end 


model, Priors = model. Priors / sum(model.Priors); 


$ EM 算法 的 参数 

nbMinSteps = 5; 最少 迭 代 次 数 

nbMaxSteps = 100; s 最 大 迭代 次 数 

err 11 - IE- 6; & ADAE R RRI Je PLUGS f V 25, 当 变 化 小 于 这 个 国 值 时 ,说 明 收 鳅 了 
——————— — 
% 主 循环 ,迭代 开始 


for nbIter = 1:nbMaxSteps 
fprintf('.'); 
% E- step, 计算 后 验 概率 ,L 表示 每 个 样本 点 取 z= 1,2,… 的 概率 
L = zeros(model. nbStates, size(Data, 2)); s 初始 化 矩阵 ,用 于 存放 w 
for i= 1:model. nbStates € 对 于 每 个 z 
L(i,:) = model.Priors(i) * gaussPDF(Data, model.Mu(:,i), model.Sigma(:,:,1i)); 
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end 
$ sum(A，1) 按 列 求 和 ,返回 行 问 量 , repmat(A, m, n): 在 声明 的 维度 上 复制 A 
GAMMA = L ./ repmat(sum(L,1) + realmin, model.nbStates, 1); 名 后 验 概率 
GAMMA2 = GAMMA . / repmat(sum(GAMMA, 2), 1, nbData) ; %w i/sum(w i) 
% M- step 
for i= l:model.nbStates 
& Wr phi, 先 验 
model.Priors(i) = sum(GAMMA(i,:)) / nbData; 
% 更 新 均值 
model. Mu( :, i) = Data * GAMMA2(1,:)'; 
& Ur p 2558 Ee 
DataTmp = Data - repmat(model.Mu(:,i),1,nbData); 
model.Sigma(:,:,i) = DataTmp * diag(GAMMA2(1, :)) * DataTmp' + eye(size(Data,1)) 
* diagRegularizationFactor; 


end 

$$ RIA TUE 

if mod(nbIter , 4) == 0 
plot em(nbIter, X', model.Mu, model.Sigma); 调用 一 个 绘图 函数 
pause(2); s BE: 

end 

s YE READER BR RUE 


LL(nbIter) » sum(log(sum(L,1))) / nbData; 
% Stop the algorithm if EM converged (small change of LL) 
if nbIter » nbMinSteps 
if LL(nbIter) - LL(nbIter- 1)« err ll || nbIter == nbMaxSteps - 1 
disp(['EM 算法 在 'num2str(nbIter) ' KŻ A SX. ']); 
break; 
end 
end 
end 
if nbIter -- nbMaxSteps- 1 
disp(['3A $1 f RARER, 考虑 增加 最 大 和 迭代 次 数 的 设置 … ']); 


end 


gm = fitgmdist(Data', 2); 

plot em(nbIter, X', model.Mu, model.Sigma); 

* plot(Data(1, :),Data(2, :), '. ', markersize',8,'color',[.7 .7 . 7]) ; hold on; 
hold on 

plotGMM(gm.mu, gm. Sigma, [0 0.8 0], .5); 


在 上 面 的 代码 中 ,首先 生成 了 训练 数据 ,初始 化 了 一 些 模型 的 参数 。 定 义 了 一 个 结构 
体 变 量 model, 用 于 储存 一 些 配 置信 息 和 模型 训练 结果 ,如 数据 维度 、 样 本 个 数 、 初 始 的 先 
验 概率 均值 及 协 方 差 矩 阵 等 。 在 主 循环 中 ,进行 了 多 次 迭代 ,每 次 迭代 都 通过 下 步 和 


Bg", 

" * 
* mn 
= 
z | = 
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时 * 
* = 
al m" 
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M 步 对 模型 参数 进行 更 新 。 每 次 更 新 完 之 后 ;计算 似 然 了 水 数值 , 当 朋 后 两 次 似 然 函数 值 
的 变化 小 于 设 定 值 时 ,就 停止 迭代 。 代 码 中 还 用 到 了 几 个 子 负 数 , 分 别 是 计算 高 斯 胃 数 概 
HJ gaussPDF 和 用 于 作 图 的 plot em 和 plotGMM。 这 些 图 数 都 不 影响 对 于 EM 算法 
的 理解 ,因此 不 再 详细 介绍 。 在 本 例 中 ,经 过 53 次 迭代 的 结果 如 图 13. 3 所 示 。 





图 13.3 EM 算法 用 于 GMM 的 示例 


图 13. 3( 详 见 文 前 彩 搬 ) 中 的 红色 阴影 李 圆 是 实现 的 效 末 。 得 到 的 模型 参数 也 很 接 
近 其 实 的 分 布 。 两 个 椭圆 的 中 心 分 列 处 在 两 个 高 斯 的 中 心 点 。 而 绿色 椭 加 是 利用 
MATLAB 机 更 学 习 工 具 箱 中 的 gmfitdist() 了 负数 得 到 的 结果 ,效果 不 是 很 理想 。 为 了 观 
察 训 练 的 过 程 , 男 出 每 次 迭代 后 似 然 函数 值 的 变化 图 ,如 图 13.4 Bro. 


似 然 函数 值 的 变化 
-4.05 
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由 图 13. 4 可 见 , 正 如 理论 推导 的 结果 那样 ,EM 算法 能 够 保证 似 然 值 逐渐 增加 ,直到 
变化 平稳 时 ,算法 收 化 。 
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在 第 12 章 详细 介绍 了 k-means 算法 的 内 容 , 并 列举 了 该 算法 的 优 缺 点 。 可 以 发 现 ,k 
均值 算法 对 离 群 点 非 弟 敏感 ,因为 当 还 离 大 多 数 数据 的 对 象 被 分 配 到 一 个 族 时 ,就 可 能 严 
重地 扭曲 族 的 均值 ,造成 有 所 得 质点 与 实际 质点 位 置 偏差 过 大 ,平方 座 差 哨 数 的 使 用 更 是 严 
重 恶 化 了 这 一 影响 ,最 终 很 可 能 影 啊 其 他 对 象 到 簇 的 分 配 。 

为 了 降低 k-means 算法 对 于 离 群 点 的 敏感 性 ,可 以 不 采用 簇 中 对 象 的 均值 作为 参照 
点 ,而 在 每 个 复 中 选 出 一 个 实际 的 对 象 来 代表 该 复 。 而 有 中 心 点 算法 (ER-medoids) 就 是 采 
用 这 种 方式 的 算法 。 

k 中 心 点 算法 在 分 类 上 属于 动态 聚 类 算法 。 算 法 的 基础 是 在 每 个 簇 中 选 出 一 个 实际 
的 对 象 来 代表 该 复 ,其 余 的 每 个 对 象 聚 类 到 与 其 最 相似 的 代表 性 对 象 所 在 的 族 中 ,然后 重 
复 迭 代 , 和 耳 到 每 个 代表 对 和 象 部 成 为 它 所 在 的 入 实际 中 心 点 或 最 徘 中 心 的 对 和 象 为 止 。 它 的 划 
分 方法 仍然 基于 最 小 化 所 有 对 象 与 其 对 应 的 参照 点 之 间 的 相 异 度 之 和 的 原则 来 执行 。 


14.1 经 典 k 中 心 点 算法 一 PAM 算法 


14.1.1 PAM 算法 原理 


PAM(Partitioning Around Medoids, 围 绕 中 心 点 的 划分 算法 ) 是 最 早 提出 的 中心 
点 算法 之 一 ,该 算法 用 数据 点 蔡 换 的 方法 获取 最 好 的 聚 类 中 心 ,而且 该 算法 还 可 以 死 服 
k-means 算法 容易 陷入 局 部 最 优 的 缺陷 …。 

PAM 算法 的 基本 思想 是 : 痛 先 为 每 个 族 随 意 选 择 一 个 代表 对 象 ,剩余 的 对 象 根据 其 
与 每 个 代表 对 象 的 距离 (此 处 距离 不 一 定 是 欧 氏 距离 ,也 可 能 是 曼哈顿 距离 ) 分 配给 最 近 


f: 


的 代表 对 象 所 代表 的 禾 ; 然后 ,反复 地 用 非 中 心 点 来 葵 换 中 心 点 以 提高 聚 类 的 质量 。 聚 
类 质量 用 一 个 代价 函数 来 评估 ,该 图 数 度量 一 个 非 代表 对 象 是 否 是 当前 一 个 代表 对 象 的 
好 的 代替 ,如果 是 就 进行 蔡 换 ,否则 不 替换 ; 最 后 给 出 正确 的 划分 。 当 一 个 中 心 点 被 某 个 
非 中 心 点 蔡 代 时 ,除了 未 被 蔡 换 的 中 心 点 外 ,其 余 各 点 也 被 重新 分 配 呈 。 

算法 的 具体 步骤 如 下 。 

(1) 随机 选择 个 代表 对 象 作 为 初始 的 中 心 点 。 

(2) 指派 每 个 剩余 对 象 给 离 它 最 近 的 中 心 点 所 代表 的 复 。 

(3) 随机 地 选择 一 个 未 选择 过 的 非 中心 点 对 象 y。 

(4) 计算 用 y 代替 中 心 点 并 的 总 代价 s。 

(5) WI 为 负 , 则 可 用 y 代 蔡 工 ,形成 新 的 中 心 点 。 

(6) 重复 步骤 (2) 一 步骤 (5) ,直到 不 个 中 心 点 不 再 发 生变 化 。 

根据 上 述 步骤 可 以 得 出 PAM 算法 的 输入 为 包含 浆 个 对 象 的 数据 库 和 复数 目 上 。 输 
出 为 满足 要 求 的 上 个 簇 。 


14.1.2 PAM 算法 实例 


为 了 便于 读者 理解 ,下面 用 一 个 实例 来 展示 PAM 算法 的 整个 过 程 。 在 此 构造 一 个 二 
维 的 数据 集 ,如 表 14. 1 所 示 。 该 数据 集 包 含 10 个 样本 ,要 求 将 该 数据 集聚 集成 两 个 集群 ， 
即 有 一 2, 如 图 14.1 所 示 。 下 面 就 要 展示 PAM 算法 是 如 何 将 这 些 样 本 划分 为 不 同类 别 的 。 


表 14.1 HFE 
: EE — — 


(1) 随机 地 选择 两 个 样本 点 (ci — E — (3,4) fI Cs — Eg — (7,4)) 作 为 初 始 集 群 中 心 。 
用 曼哈顿 距离 计算 每 个 样本 到 中 心 点 的 距离 ,以 将 每 个 数据 对 象 与 其 最 近 的 中 心 点 相关 
EK ,如 表 14. 2 所 示 ,这 一 步 完 成 后 的 群集 如 图 14. 2 所 示 。 
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表 14.2 各 数据 对 和 象 与 聚 类 中 心 的 距离 


数据 对 象 lp 离 
| | 
[ G5 | 9» | 4 
| 
Rf 


6 8 10 x 0 2 4 6 S8 03 
图 14.1 数据 集 样 本 图 14.2 步骤 (1) 后 的 群集 


(2) 由 于 点 (2,6)、(3,8) 和 (4,7) 更 靠近 c, ,因此 它们 形成 一 个 复 ,而 剩余 点 形成 另 
个 禾 。 因 此 ,和 群集 变 成 : 
Cluster1— ((3.4) (2,6) (3,8) (4,7)) 
Cluster2— ((7,4) (6,2) (6,4) (7:3) (8,5) (7,60) 
该 聚 类 的 总 代价 是 数据 点 与 其 集群 中 心 之 间 的 距离 之 和 : 
3 十 0 十 4 十 4 十 3 十 1 十 1 十 0 十 2 十 2==20 
(3) 选择 一 个 非 中 心 点 对 象 ORE POA ckit O ==(7,3), 即 XX;。 所 以 现在 的 
中 心 点 是 cl (3,4) 和 0O(7,3) ,如 表 14.3 和 图 14. 3 所 示 。 如 果 c, 和 0O' 是 新 的 中 心 点 , 通 
过 使 用 步骤 (1) 中 的 公式 计算 涉及 的 总 代价 为 : 
总 代价 王 3 十 0 十 4 十 4 十 2 十 2 十 0 十 1 十 3 十 3 一 22 
4t, 
efi 
a jL 
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所 以 从 cs 到 O 的 交换 代价 为 : 
:一 当前 总 代价 一 原 总 代价 三 22 一 20 王 2 一 0 
表 14.3 各 数据 对 象 与 cl 的 距离 
数据 对 象 距 离 


2 9 
3 9 
1 7 
9 2 
6 2 
7 0 
8 1 
9 3 
10 3 

11 





图 14.3 群集 


由 此 可 得 ,把 聚 类 中 心 换 到 O' 将 是 一 个 错误 的 选择 , 原 选 择 是 比较 好 的 。 继 续 尝 试 
其 他 非 中 心 点 对 象 , 发 现 第 一 选择 是 最 好 的 。 因 此 , 聚 类 中 心 的 配置 不 会 改变 ,算法 至 此 
终止 , 即 中 心 点 没有 变化 。 


14.1.3 PAM 算法 的 特点 


PAM 算法 的 优点 如 下 。 


P n 
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CI) 对 噪声 点 /孤立 点 不 敏感 ,具有 较 强 的 数据 健壮 性 。 

(2) 聚 类 结果 与 非 中 心 点 数据 选取 为 临时 中 心 点 的 顺序 无 关 。 

(3) 聚 类 结果 具有 数据 对 象 平移 和 正 交 变换 的 不 变性 。 

PAM 算法 的 缺点 : 对 于 大 数据 集 ,PAM 算法 聚 类 过 程 缓慢 ,具有 高 耗 时 性 。 主 要 原 
因 在 于 通过 迭代 来 寻找 最 佳 的 聚 类 中 心 点 集 时 ,需要 反复 地 在 非 中 心 点 对 象 与 中 心 点 对 
象 之 间 进 行 最 近邻 搜索 ,从 而 产生 大 量 非 必需 的 重复 计算 。 


7514.2 k 中 心 点 算法 的 改进 


前 面 担 到 了 PAM 算法 时 间 复 杂 度 局 是 算法 的 突出 缺点 ,针对 这 个 缺 点 ,研究 痢 也 在 
不 断 地 进行 算法 改善 ,提出 了 一 些 关 于 太 中心 点 算法 的 改进 算法 。 其 中 Park 等 提出 了 快 
速 闵 中心 点 算法 ,对 有 中 心 点 算法 在 初始 聚 类 中 心 选取 和 聚 类 中 心 更 新 两 方面 进行 改进 ， 
明显 提高 了 聚 类 效果 ,缩短 了 聚 类 时 间 。 接 下 来 就 为 大 家 介绍 一 下 快速 中心 点 算法 。 

快速 中 心 扣 算法 通过 选择 处 于 样本 分 布 密集 区 域 的 数据 对 象 作 为 初 好 类 禾 中 心 ， 
以 及 采用 新 的 聚 类 中 心 更 迭 方 法 改进 了 PAM 算法 ,其 步骤 如 下 。 

(D 初 娘 化 中 心 点 。 计 算数 据 集中 每 个 数据 对 象 的 密度 (可 采用 类 似 12. 2.2 市 的 方 
法 ) ,选择 前 个 处 于 密集 区 域 的 样本 为 初始 中 心 , 然 后 分 配 样本 到 与 其 距离 最 近 的 中 心 ， 
得 到 初 妈 肾 类 结果 ,再 计算 聚 类 误差 平方 和 。 

(2) 更 新 中 心 点 (第 一 次 循环 时 跳 过 该 步 骆 )。 为 每 一 类 寻找 一 个 新 的 中 心 点 ,使 新 
中 心 点 到 该 类 其 他 数据 对 象 的 距离 总 和 最 小 。 

(3) 分 配 梓 本 到 中 心 点 。 分 配 样 本 到 最 近 的 中 心 点 ,得 到 了 类 结 朱 ,再 计算 出 聚 类 误 
差 平 方 和 , 右 聚 类 误差 平方 和 与 上 一 次 友 代 的 聚 类 误差 平方 和 相同 , 则 绪 束 迭代 ,否则 转 
5127 JE (2) ,重复 执行 步骤 (2)、(3) ,二 到 得 到 满意 结 琳 为止。 

快速 中 心 点 算法 通过 选择 合适 的 初 妨 聚 类 中 心 , 改 进 了 PAM 算法 的 初始 化 方法 ， 
但 吓 在 选择 初始 中 心 点 时 ,该 算法 对 样本 的 空间 分 布 信息 考虑 不 足 , 有 所 选择 的 初 妈 中 心 点 
有 可 能 处 于 同一 类 复 ,最终 导致 分 类 结果 不 理想 。 


C7 14.3 k 中 心 点 算法 的 MATLAB 实践 


对 于 中心 点 算法 ,在 MATLAB 中 直接 调用 kmedoids O PRICE RT De k Pob ea B5 8€ 
类 问题 ,并 不 需要 对 中心 点 算法 进行 编写 。kmedoids() 函 数 的 常用 调用 方法 为 : 


第 14 章 “K 中 心 点 算法 : 189 : 


idx = kmedoids( X, k) (j| 
idx = kmedoids( X, k, Name, Value) 


万 外 ,依据 需要 返回 值 的 不 同 需求 ,其 调用 方式 也 可 为 : 





[ idx,C] 


= kmedoids( ) 
| [ idx, C, sumd] = kmedoids( ) 
[ idx, C, sumd, D] = kmedoids( ) 
| [ idx, C, sumd, D, midx ] = kmedoids(  ) 
| [ idx, C, sumd, D, midx, info] = kmedoids( ) 


其 中 ， KEERATA MARITA. KASS AGIS x. 14. 4 PR. 
表 14.4 参数 含义 


参 ON [1 X 

X NX P 的 数据 矩阵 

k 表示 将 X UDA k 类 ,k 为 整数 

idx NX1 的 向 量 , 存 储 的 是 每 个 点 的 聚 类 标号 

C kXP 的 矩阵 ,存储 的 是 个 聚 类 质心 位 置 

sumd 1Xk 的 和 向 量 , 存 储 的 是 类 间 所 有 点 与 该 类 质心 点 距离 之 和 

D N X k 的 矩阵 ,存储 的 是 每 个 点 与 所有 质心 的 距离 

midx 1Xk 的 向 量 , 表 示 簇 中 心 处 对 应 的 下 点 的 行 数 ,满足 C= 外 (midx,:) 
info 算法 的 相关 信息 ,如 使 用 的 肾 类 方法 、 聚 类 中 心 的 初始 位 置 等 


对 于 Name 和 Value 表示 算法 相关 参数 名 及 参数 值 , 其 相应 的 参数 名 包括 
Algorithm, OnlinePhase, Distance, Options, Replicates, NumSample, PerecentNeighbors 
和 Start。 对 于 具体 的 参数 含义 及 参数 值 , 可 参考 kmedoids PR ZH 485 Bj XC 4. 

现在 ,通过 MATLAB 实例 的 方法 运用 & 中心 点 算法 对 矩阵 进行 肾 类 ,展示 在 
MATLAB rf k 中心 点 算法 的 具体 实现 (Kecenter_Mat. m 文件 )。 在 实例 中 首先 随机 生成 
两 组 数据 ,然后 ,通过 中心 点 算法 实现 日 动 分 类 ,并 找到 两 组 数据 的 中 心 点 ,最 后 ,通过 
绘图 的 方式 绘制 出 分 类 的 数据 及 两 组 数据 的 中 心 点 ,如 图 14.4 所 示 。 





% MATLAB 自 带 天 中 心 点 算法 图 数 kmedoids 实现 





eic: 


close all; 


| clear; 
X= [randn(100,2) * 0. 75 + ones(100,2) ;randn(100,2) * 0.5- ones(100,2) ]; 产生 两 组 随机 数据 
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[ idx, C, sund, d, midx, info] = kmedoids(X,2, 'Distance', 'cityblock'); 

s HI k 中心 点 算法 进行 分 组 
plot(X{(idx == 1,1),X(idx== 1,2), 'r.', MarkerSize',7) $ 绘制 分 组 后 党 一 组 的 数据 
hold on 
plot(X(idx == 2,1),X(idx== 2,2), 'b. ', MarkerSize',7) & 绘制 分 组 后 第 二 组 的 数据 
plot(C(:,1),C(:,2), 'co', 'MarkerSize',7, 'LineWidth',1.5) 名 绘制 第 一 组 和 第 二 组 数据 的 中 心 点 
legend( Cluster 1', 'Cluster 2', 'Medoids', 'Location', 'NW'); 
title('Cluster Assignments and Medoids'); 


hold off 
大 | Figure 1 UR 3 : p 
MHP 编辑 (E) £X) 插入 山 IA Sm) gLOW) 帮助 (H) ^i 
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图 14.4 分 类 数据 及 中 心 点 
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关联 规则 挖掘 的 Apriori 算 法 ， 





关联 规则 挖掘 算法 是 数据 控 掘 中 的 一 类 重要 算法 。1993 F, Agrawal 等 首次 提出 了 
关联 规则 的 概念 ,同时 给 出 了 相应 的 AIS 挖掘 算法 ,但 是 性 能 较 差 。1994 年 ,他 们 建立 了 
项 目 集 格 空 间 理论 ,并 依据 上 述 两 个 定理 ,提出 了 着 名 的 Apriori 算法 ,之 后 诸多 的 人 研究 
人 员 开 始 对 关联 规则 算法 进行 了 大 量 的 人 研究。 至今 ,Apriori 仍然 作为 关联 规则 挖掘 的 经 
典 算法 被 广泛 讨论 1。 

本 草 的 主要 内 容 包 括 关联 规则 挖掘 中 相关 定义 的 简单 介绍 、Apriori 算法 的 具体 内 容 
及 Apriori 拭 法 的 一 些 改 进 算法 。 


9 15.1 关联 规则 概述 


关联 规则 的 发 现 是 数据 挖 握 中 最 重要 的 一 项 任务 之 一 , 它 的 目标 是 发 现 数据 集中 有 所 
有 的 频 坚 模式 。 关 联 规则 最 初 提出 的 动机 是 针对 购物 篮 分 析 (Market Basket Analysis) 
问题 提出 的 , 它 可 用 于 发 现 交 易 数 据 库 中 不 同 商 品 项 之 间 的 联系 ,进而 找 出 顾客 购买 
行为 模式 。 这 样 的 规则 可 以 应 用 于 商品 质 架 设计 、 存 负 安 排 ,以 及 根据 购买 模式 对 用 
户 进行 分 类 。 如 今 , 除 了 可 以 应 用 于 购物 篮 数 据 之 外 ,关联 规则 的 分 析 在 其 他 领域 也 
得 到 了 顾 为 广泛 的 应 用 ,如 生物 信息 和 学、 电子 商务 个 性 化 推荐 、 金 融 服 务 及 科学 数据 分 


15.1.1 关联 规则 的 基本 概念 


在 介绍 关联 规则 挖掘 算法 中 的 Apriori 算法 之 前 , 先 介 绍 一 下 关联 规则 挖掘 的 相关 


' 4f, 
R- | E 
"-— — 46 


; 192 : 机 器 学 习 入 门 到 实战 一 MATLAB 实 践 应 用 
定义 。 在 大 量 的 教材 中 ,关联 规则 算法 并 不 适用 第 1 革 中 所 定义 的 样本 、 属 性 值 等 概念 ， 
其 有 目 身 的 相关 定义 ,为 了 与 相关 教材 不 产生 冲突 ,在 本 万 中 继续 使 用 其 相关 定义。 
1. 项 及 事务 


以 一 组 事务 集 为 例 诠 释 项 及 事务 的 定义 。 表 15. 1 所 示 为 一 组 简单 数据 的 二 元 表示 ， 
也 就 是 两 个 状态 的 表示 ,0 或 1。 


X 15.1 购物 复数 据 的 二 元 表示 


c» | | 二 
- 
jmd 


ER 15. 1 中 ,每 行 是 一 组 购买 记录 , 即 称 为 一 个 事务 ,用 上 表示 ; 而 每 列 对 应 的 为 一 
个 项 ,用 i 表示 ; 项 用 二 元 变量 来 表示 。 以 事务 序号 1 为 例 , 面 包 在 事务 1 中 出 现 因 此 标 
为 1, 而 尿布 未 在 事务 1 中 出 现 , 因 此 标 为 0。 某 个 事务 中 出 现 的 项 的 数目 称 为 这 个 事务 
的 宽度 。 例 如 ER 15. 1 的 事务 4 中 出 现 了 面包 .咖啡 .尿布 . 矿 录 水 可乐 5 项 ,其 宽度 
就 是 5。 


2. 项 集 


A IS {i FE peia E IS PI NA CS IP Pr A IL AES PAT E ,而 下 
所 有 事务 的 组 合 。 关 联 分 析 中 ,项目 集 是 项 集 的 集合 ,用 怀表 示 , 可 以 包含 0 个 或 多 个 项 
R. WREDE IFES isie CR, MA k WR., AU, {牛奶 ,人 饼干 ,面包 ,啤酒 } 就 
是 一 个 4 项 集 。 空 项 集 是 指 不 包 售 任何 集 的 项 集 。 

3. 关联 规则 

称 A 一 B 为 一 个 关联 规则 ,其 中 A,B 必须 同时 满足 {A,B|IACI,BCI,A[1B= Ø}, 
A 为 该 规则 的 前 提 ,B 为 结果 。 

4. IHE X By HAS XE 


事务 数据 库 D 中 支持 项 目 集 X IIS A HRAM HR X Is xu Count CX), 
设 事 务 数据 库 D 中 总 的 事务 数 为 |D| , 称 项 目 集 义 的 文 持 度 为 supCX0 —CountCXD/ IDI. 
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5. 关联 规则 A— B BSc fr Re 


在 事务 集 工 中 ,关联 规则 A— B 的 支持 度 是 指 同时 支持 A 和 B 的 事务 数 与 事务 集中 
所 有 的 事务 数 之 比 : 
| Count(A N B) | 
| D | 


SupCA — B) = 
6. 最 小 支持 度 (min-sup) 
挖掘 出 来 的 项 集 必须 大 于 或 等 于 文 持 度 的 值 。 
7. 频繁 项 集 


如 果 一 个 项 集 的 文 持 度 大 于 或 等 于 给 定 的 最 小 交 持 度 国 值 ,那么 就 可 以 称 它 为 频 纂 
项 集 (frequent itemset) ,也 称 频 集 。 


15.1.2. 关联 规则 的 分 类 


关联 规则 的 种 类 有 很 多 ,根据 不 同 的 分 类 标准 ,可 以 将 关联 规则 进行 以 下 3 种 方法 的 


1. 布尔 型 和 数值 型 


布尔 型 和 数值 型 的 分 类 依据 是 关联 规则 中 处 理 的 变量 类 别 。 夺 一 个 规则 在 处 理 数值 
时 关心 的 重点 是 项 的 存在 与 否 , 则 此 规则 为 布尔 型 关联 规则 。 它 人 处理 的 数据 部 是 离 若 的 ， 
可 以 显示 被 处 理 变 量 之 间 的 关系 。 右 一 个 规则 关心 的 是 量化 的 项 与 属性 之 间 的 关联 则 它 
属于 数值 型 关联 规则 。 一 个 数值 型 关联 规则 可 以 与 多 维 关 联 及 多 层 关 联 相 结合 。 此 种 规 
则 将 项 或 属性 的 量化 值 进行 动态 分 割 , 划 分 在 不 同 的 区 间 内 ,也 可 对 原始 未 处 理 的 数据 进 
行 耳 接 操作 ，。 


2. 单 维 规则 和 多 维 规则 


单 维 规则 和 多 维 规则 的 分 类 依据 是 关联 规则 中 的 项 及 属性 涉及 的 维 数 。 在 单 维 关联 
规则 中 只 考虑 数据 的 一 个 维度 ,但 是 在 多 维 关联 规则 中 会 从 数据 的 多 层 维度 上 考虑 挖掘 
规则 。 例 如 ,牛奶 一 面包 就 是 一 个 单 维 规则 ,因为 它 只 涉及 顾客 购买 物品 这 一 维 ; 而 民 
Wk — "1X" UAR DU = "RABUu ES mia 2g BE ,因此 为 多 维 规则 。 

3. 单 层 规则 和 多 层 规 则 


单 层 规则 和 多 层 规则 的 分 类 依据 为 规则 中 是 否 考虑 到 数据 的 层次 性 。 在 单 层 关联 规 
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则 中 没有 考虑 数据 中 的 层次 性 ,简单 地 将 数据 理解 为 一 层 。 例 如 ,啤酒 ~ 饼干 就 是 一 个 单 
层 规则 ,因为 啤酒 和 饼干 是 属于 一 个 层次 的 概念 。 而 多 层 规则 将 现实 数据 分 为 多 个 层次 ， 
充分 考虑 到 了 数据 的 层次 性 。 例 如 ,啤酒 一 奥 利 奥 饼干 就 考虑 到 了 数据 的 多 层次 性 ,是 一 
个 多 层 规则 。 因 为 啤酒 与 奥 利 奥 饼 干 不 是 一 个 层次 的 概念 ,而 是 属于 两 个 层次 ,因此 是 一 
个 多 层 关联 规则 。 





| p 15.2 Apriori 算法 原理 


Apriori 算法 是 由 Rakesh Agrawal 和 Ramakrishnan Skrikant 于 1994 年 提出 的 ,是 
第 一 个 成 熟 关 联 规则 算法 ,也 是 最 经 典 的 一 个 算法 。 它 的 核心 是 两 阶段 频 集 思 想 的 递 
推算 法 ,该 算法 也 是 所 有 挖掘 布尔 规则 频 素 项 集 算 法 中 最 有 影响 力 的 一 种 算法 。 

Apriori fii H3 EZ 8 28 B3 [V 27 iE .k 项 集 用 于 探索 (CR 十 1) 项 集 。 首 先 , 从 1 项 集 开 
li ,根据 给 定 的 支持 度 阅 minsup 找 出 频繁 1 项 集 的 集合 ,该 集合 记 作 Lis Li 用 于 找 候 
选 2 项 集 的 集合 C; ,再 根据 支持 度 找到 频繁 2 ME L. mM L; 用 于 找 Cs ,Cs HFE L;， 
以 此 类 推 ,下 到 产生 最 多 项 的 频 壹 项 集 Lu 为止 。 为 提高 频 演 项 集 乏 层 产 生 的 效率 ,算法 
使 用 频繁 项 集 性 质 的 先 验 原理 : 如 果 菏 个 项 集 是 频繁 的 ,那么 其 所 有 子 集 必 定 也 是 频 治 
的 ,从 而 对 搜索 空间 进行 压缩 4。 算 法 的 主要 步骤 分 为 以 下 两 步 。 

1) 连接 步 

自 先 ,为 了 找到 频繁 (k 十 1) 项 集 La4yv ，, 先 要 使 得 频 蚂 上 项 集 与 月 号 连接 ,产生 候选 
(k-- 03 4E EA Cae. 

i h M L Æ L, 中 的 项 集 , 记 号 [Lj 表示 的 第 7 项 (如 工 [2j 表 示 工 的 第 2 项 )，。 
将 事物 或 项 集中 的 项 按照 宇和 典 次 序 排 序 ,执行 连接 LoL; 其 中 ,Li 的 元 系 是 可 连接 的 ,如 
REN- DARA; BanOs[1]—5hl1DACG[2]— LLD A= AChLR—-1]— 
Llk—1DACCLLR]SLLRD. M L, IR I. 和 1， Jn ie RES, KP, RL] 
1;[&j) 能 简单 地 保证 D 和 I 不 产生 重复 。 连 接 I 和 I 产生 的 结果 项 集 为 LJL] 
hLk]LLk]. 

2) 剪 枝 步 

因为 Li 是 Ci 的 于 集 , 所 以 从 于 集 的 概念 中 可 以 得 知 ,Cx 的 成 员 可 以 是 频 款 的 ,也 可 
以 不 是 频 款 的 ,而 天 的 所 有 于 集 必 定 全 部 都 在 Cs 中 。 扫 摘 数 据 库 ,确定 C, 中 每 个 成 员 
的 计数 , 即 文 持 度 ,删除 不 符合 规定 的 项 集 , 从 而 确定 La o 

根据 频繁 项 集 性 质 的 先 验 原 理 , 可 以 得 出 任何 非 频 繁 的 (一 1) 项 集 都 不 可 能 是 频 
壹 上 项 集 的 子 集 。 因 此 ,如 果 一 个 候选 上 项 集 (k 一 1) 了 于 集 不 在 Li 中 , 则 该 候选 也 不 可 
能 是 频繁 的 ,从 而 可 以 由 C, 中 删除 。 这 种 子 集 测 试 可 以 使 所 有 频繁 项 集 的 敌 列 树 快 速 
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Apriori 算法 的 优点 : Apriori 算法 思想 催 单 .清晰 有 旦 执行 过 程 有 循序 渐进 的 优点 ,应 
用 了 频 坚 项 集 的 先 验 知识 ,只 要 某 一 项 集 是 非 频 党 的 , 则 其 超 集 就 无 须 青 检验 的 重要 性 质 
对 候选 集 进行 有 效 的 过 滤 , 尤 其 是 对 短 模式 (数据 库 的 数据 量 可 能 很 大 ,但 数据 所 包含 的 
属性 较 少 ) 的 数据 有 很 好 的 挖掘 效果 。 

Apriori 算法 的 缺点 如 下 。 

(I) GB Apriori 算法 的 第 一 步 会 先生 成 候选 项 集 , 但 是 ,最 后 却 发 现 这 些 项 集 并 不 
部 是 频 烷 项 集 的 候选 项 集 , 这 样 , 便 造 成 了 扫 捅 数据 库 时 出 现 的 资源 浪费 。 

(2) 在 程序 的 连接 中 ,总 是 会 对 一 些 项 目 进行 比较 ,从 而 造成 了 相同 的 项 目 被 比较 许 
多 次 ,导致 算法 的 效率 无 法 提高 。 

(3) 对 某 些 事务 项 做 过 第 一 次 扫描 之 后 ,已 经 可 以 判断 出 其 可 以 不 被 再 扫描 了 ,但 是 
算法 执行 时 ,又 会 再 次 被 扫描 ,严重 影 啊 了 算法 的 效率 。 


£> 15.3 Apriori 算法 的 改进 


前 面 已 经 对 Apriori 算法 的 相关 理论 做 了 详细 的 介绍 ,同时 也 对 算法 的 核心 思想 和 
优 缺 点 进行 了 详细 的 说 明 。Apriori 算法 虽然 理解 .操作 简单 ,但 还 是 存在 一 些 不 足 与 
缺陷 ,为 此 ,许多 专家 学 者 通过 大 量 的 研究 工作 ,相继 提出 了 一 些 优 化 的 方法 。 本 节 主 
要 针对 Apriori 算法 的 一 些 缺 点 ,介绍 和 分 析 几 种 目前 较 成 熟 的 Apriori 算法 的 改进 
Jem, 


15.3.1 基于 分 片 的 并 行 方法 


Savasere 等 提出 了 一 个 基于 分 上 乒 (partition) 的 算法 ,该 算法 首先 把 数据 库 中 的 事 
务 集 分 成 儿 个 互 不 相交 的 逻辑 于 集 , 每 次 单独 考 夸 一 个 分 片 , 并 对 它 生 成 所 有 的 频 
集 ,然后 把 产生 的 频 集 合并 ,用 来 生成 所 有 可 能 的 频 集 ,最 后 计算 这 些 项 集 的 文 
持 度 。 

分 斤 的 大 小 选择 的 标准 是 要 使 得 每 个 分 片 可 以 锌 放 人 主 和 存 , 每 个 阶段 只 需 被 扫 摘 一 
次 。 而 算法 的 正确 性 是 由 "每 一 个 可 能 的 频 集 至 少 在 茶 一 个 分 芯 中 是 频 集 "来 保证 的 。 
分 片 的 主要 目的 是 为 了 提高 算法 的 并 行 性 ,可 以 把 每 一 分 块 分 别 分 配给 某 一 个 处 理 姑 
生成 频 集 。 产 生 频 集 的 每 一 个 循环 结束 后 ,处 理 器 之 间 进 行 通信 合并 产生 全 局 的 候选 
项 集 。 

在 这 种 算法 中 ,各 人 处理 副 间 的 通信 交互 过 程 是 算法 执行 时 间 的 主要 瓶 贷 ; 同时 ,每 个 
独立 的 处 理 硕 生成 频 集 的 时 间 也 是 一 个 瓶颈 。 


; 机 器 学 习 入 门 到 实战 一 一 MATLAB 实 践 应 用 


15.3.2 基于 hash 的 方法 


基于 hash 的 方法 算法 是 由 Park 等 为 了 改进 Apriori 算法 的 性 能 而 提出 的 。 他 们 认 
为 Cs 通常 是 最 大 的 ,算法 的 绝 大 部 分 时 间 清 耗 在 生成 频繁 2 项 目 集 上 。 因 此 ,提出 了 一 
个 基于 hash 函数 产生 频 集 的 高 效 算 法 。 

这 种 算法 使 用 Apriori 算法 在 事务 数据 库 中 产生 的 频 演 1 MEL ,并 产生 候选 2 项 
集 C; ,然后 通过 hash 函数 把 2 项 集 映 映 到 不 同 的 桶 ,并 对 每 个 桶 中 的 项 目 分 别 计 数 , 对 于 
散 列 中 的 某 个 桶 中 的 计数 低 于 文 持 度 国 值 的 2 项 集 , 则 不 可 能 成 为 频繁 2 项 集 , 因 此 删除 
对 应 桶 中 的 项 集 , 从 而 达到 压缩 项 集 的 作用 。 


15.3.3 基于 采样 的 方法 


基于 采样 的 方法 算法 是 由 Mannila 等 率先 提出 的 ,他 们 认为 采样 是 发 现 规则 的 一 个 
有 效 途 人 径 。 这 种 算法 的 基本 思路 是 对 给 定数 据 库 的 事务 集 , 选 定 其 于 集 作为 频 集 的 搜索 
于 空间 ,该 于 空间 的 频 集 就 可 以 作为 整个 数据 库 的 频 集 。 

这 种 算法 后 来 又 由 Toivonen 进行 了 进一步 的 发 展 , 他 提出 先 使 用 从 数据 库 中 抽取 出 
来 的 采样 得 到 一 些 在 整个 数据 库 中 可 能 成 立 的 规则 ,然后 对 数据 库 的 剩余 部 分 验证 这 个 
后 采 。 这 种 改进 后 的 算法 不 但 算法 相当 催 单 ,而 且 显 者 地 减少 了 LO 代价 ,但 是 一 个 很 
大 的 缺点 就 是 产生 的 结果 不 精确 , 即 存在 所 谓 的 数据 分 布 规律 扭曲 (Data Skew). AX 
分 布 在 同一 页 面 上 的 数据 存在 高 度 相 关 性 ,也许 不 能 表示 整个 数据 库 中 模式 的 分 布 , 由 此 
而 导致 验证 的 代价 可 能 同 扫 拉 整个 数据 库 相 近 。 


15.3.4 减少 交易 个 数 的 方法 


减少 交易 个 数 的 方法 算法 的 基本 思想 就 是 当 一 个 事务 不 包含 长 度 为 的 频 集 时 , 必 
然 不 包含 长 度 为 k 十 1 的 频 需 大 项 集 。 从 而 就 可 以 将 这 些 事务 移 去 ,减少 用 于 未 来 扫 摘 的 
事务 集 的 大 小 ,这 样 在 下 一 次 的 扫描 中 就 可 以 把 要 进行 扫描 的 事务 集 的 个 数 减 少 , 进 而 提 
局 算法 的 效 卒 。 


*" 15.4 Apriori 算法 的 MATLAB 实践 


通过 一 个 实例 ,说明 如 何 利 用 MATLAB 实现 Apriori 算法 ,进而 求 取 项 之 间 的 关联 
规则 。 相 关 的 数据 如 表 15.1 所 示 , 目 的 是 寻求 购买 者 购买 6 类 产品 的 关联 度 , 从 而 能 够 
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准确 地 分 析 顾 客 购买 行为 模式 ,以 便 应 用 于 商品 货 织 设计 、 存 货 安 排 , 以 及 根据 购买 模式 
对 用 户 进行 分 类 等 。 

在 MATLAB 中 上 萌 时 没有 相关 的 图 数 实 现 Apriori 算法 的 调用 ,作者 整理 并 编写 了 相 
关 实 现 程 序 ,代码 如 下 (Apriori App Self. m 文件 )， 


$5 Apriori 的 MATLAB 算法 实例 主 程序 





cie 

clear 

close 

a-[1 1 0 0 0 0; 

1 0 0 1 1 Q0; 

0 D Oo I 0 l; 

1 1 X 1 ü 14 

1 0 0 0 1 1; 

1 D i1 I U 1; 

]; 

apriori(a,3) 调用 Apriori 算法 , 且 文 持 度 国 值 为 3 

apriori. m X ff: 

function [L] » apriori(D,min sup) % apriori $i i1 PR ZA 

[L,A] = init(D,min sup); 名 A 为 1 频 项 集 ,L 中 为 包含 1 频繁 项 集 以 及 对 应 的 文 持 度 
k-1:; 
C-apriori gen(A,k); 名 生成 两 组 合 候选 集 

while (size(C,1)~= 0) %C 如 果 行 数 为 0, y zi sg dE ER 


[M,C] = get k itemset(D,C,min sup);  * A^ k JU $E JJ f, M 是 带 支 持 度 ,C 不 带 支 持 度 
if size(M,1) —-0 
L= [L;M]; 
end 
k-ktl; 
C= apriori gen(C,k); # 生 成 组 合 候选 集 


end 


init, m 文件 ， 


多 DD 表现 数据 集 , min_sup Eeh X t8 


function [L,A] = init(D,min sup) 










[m,n] = size(D); 
A= eye(n,n); 


B= (sun(D))'; 


mE a 
= * 
e mn 
z = 
Li j i " 
* | s 
- LJ 
B = 
al m" 
E QE 
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1-71; 
while(ic-^- n) 
if B(i)& min sup 
B(i)-[H 
B3, s) = LE 





n-n-1l; 
else 
ita Vis 
end 
end 
L= [A,B]; 


apriori_gen. m 文件 : 


function [C] = apriori gen(A,k) $ A ^E ck( 实 现 组 内 连接 及 前 校 ) 
%A 表现 第 kl 次 的 频繁 项 集 ,k 表现 第 上 频繁 项 集 
[m n] » size(A); 
C= zeros(0,n); 
gs 组 内 连接 
tfori-1:1:m 
for j-71i-*1:1:m 
flag= 1; 
tort-1:i:k-1 
if —"(A( 3, t£) 7^7 A(3, t1) 
flag 70; 
break; 


end 


end 


break; 
end 
c7 A(i, :) |A(3, :); 
flag isExit(c, A); s BITE 
if(flag-- 1)C-2 [C;c]; 
end 


end 
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isExit. m X fft; 


function flag = isExit(c,A) 判断 c 串 的 子 串 在 A 中 是 否 存 在 
[m n] = size(A); 
b-7c; 
fori-1l:1:n 
c-b; 
if c(i) == 0 continue 
end 
c(1)20; 
flag= 0; 
for j21:1:m 
A(j, :); 
a= sun(xor(c,A(7, :))); 
if a==0 
flag= 1; 
break; 
end 
end 
if flag == 0 return 
end 


end 


get k itemset. m X fF: 


function [L C] » get k itemset(D,C,min sup) 
sD 为 数据 集 ,C 为 第 k 次 前 梳 后 的 候选 集 取得 第 k 次 的 频繁 项 集 





m= size(C,1); 
M = zerosí(m,1); 


t= size(D,1); 


Ch PED f- 

H= ones(t,1); 

ind = find(C(i,:) == 1); 
n= size( ind, 2); 


for j= i:1;n 


D( :, ind(j)); 
H = H&D( :, ind(j)); 


pe. N 
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pT BT a uar I, eg eg ep a a, qr c Me ee a gue, a gr, eg rU E a 


x= sum(H'); 

if x« min sup 
C(i,:)7[I; 
M= IE 


n-mm-—1; 
else 
M(i)2x; 
1-311; 
end 
end 
L- [CM]; 


程序 运行 后 ,MATLAB 命令 窗口 输出 结果 为 : 


mmm 


EE 


对 得 到 的 输出 结 末 进 行 分 析 , 可 知 面 包 、 矿 果 水 和 可 乐 的 销售 量 较 局 , 且 第 一 项 与 第 


四 项 (面包 和 矿 果 水 )、 上 第 一 项 与 第 六 项 (面包 和 可 所)、 第 四 项 与 第 六 项 ( 矿 果 水 和 可 乐 ) 的 
关联 度 比 较 融 ,可 将 相关 产品 探 放 在 一 起 进行 出 售 , 有 助 于 提高 销售 额 。 


[1] 


[2] 


L4] 
L5] 
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假设 有 一 个 训练 样本 (x ,zx ”,…,x'”} ,现在 有 一 个 问题 是 如 何 对 这 些 数据 点 肾 
类 ,或 者 是 寻找 个 概率 密度 函数 来 刻画 这 些 样本 的 分 布 。 由 于 样本 杂乱 无 草 ,如 傈 单纯 
地 用 一 个 概率 密度 图 数 C(Probability Density Function，PDEFE) 摘 述 , m A m 25 ARX. p 

日 然 的 想法 就 是 : —O —Á——— :它们 ,在 不 同 的 样本 空间 , 某 
PDF 起 主 寻 作用 ,就 像 局 部 线性 回归 一 样 。 当然 是 肯定 的 ,这 就 是 混合 模型 。 
讨论 多 个 噩 斯 分 布 混合 的 情况 ， 你 为 高 斯 混合 模型 (GMM) ， 

高 斯 密度 图 数 估计 是 一 种 参数 化 模型 。 高 斯 混合 模型 (Gaussian Mixture Model. 
GMMD) 是 单一 高 斯 概率 密度 函数 的 延伸 ,GMM 能 够 平滑 地 近似 任意 形状 的 密度 分 布 。 
类 似 于 聚 类 ,根据 高 斯 概率 密度 图 数 参 数 的 不 同 ,每 一 个 高 斯 分 布 可 以 看 作 一 种 类 别 , 输 
和 人 一 个 样本 z, 即 可 通过 PDF 计算 其 属于 每 个 类 别 的 概率 值 , 人 然后 通过 一 个 国 值 来 判断 
该 样本 属于 哪个 高 斯 模型 。 与 GMM 相对 的 是 单 高 斯 模型 (Single Gaussian Model. 
SGM) ,很 明显 ,SGM 适用 于 仅 有 两 个 类 别 问题 的 划分 ,而 GMM 由 于 其 有 多 个 高 斯 成 
分 ,划分 更 为 精细 ,适用 于 多 类 别 的 划分 ,可 以 应 用 于 复杂 对 象 建 模 … 。 

除 此 之 外 ,高 斯 混合 模型 也 能 用 于 回归 ,利用 局 斯 条 件 分 布 陨 可 以 构造 相应 的 回归 算 
法 , 称 为 高 斯 混合 回归 (Gaussian Mixture Regression, GMR), 


*— 16.1 局 斯 凝 合 模型 原理 


16.1.1 单 高 斯 模型 


-个 多 维 的 高 斯 分 布 的 概率 密度 函数 定义 为 . 


gf: 
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1 1 
2n7 (| E D? 
注意 和 一 维 高 斯 的 不 同 ARP D 表示 变量 x BU ZEILE KA dox d 的 协 方差 矩阵 ,w 是 
均值 。 图 16. 1(a) 所 示 的 是 一 个 标准 的 、 一 维 的 高 斯 分 布 。 在 MATLAB 中 用 normpdfO 
困 数 就 能 生成 其 概率 密度 困 数 。 多 元 的 高 斯 分 布 在 MATLAB 中 用 mvnpdf() 可 以 得 到 
概率 密度 函数 。 图 16. 1(b) 所 示 的 是 一 个 二 维 的 高 斯 分 布 。 二 维 高 斯 的 PDF 是 一 个 钟 
形 的 曲面 ,投影 到 zy 轴 上 的 坐标 表示 二 维 变 量 的 取 值 , 面 上 的 点 对 应 的 Z 值 代表 两 个 
变量 的 联合 概率 。 如 果 癌 rOy 平面 投影 ,那么 会 得 到 一 个 椭圆 , 称 为 置信 区 间 。 均 值 点 
附近 椭圆 内 的 点 出 现 的 概率 大 ,给 定 一 些 样本 点 ,如 果 它 属于 某 个 高 斯 模型 的 概率 比较 
大 ,就 认为 这 个 点 属于 这 个 高 斯 ,这 就 完成 了 聚 类 的 目的 。 
Vy 0.4, 
0.35 








N(x;p ,2 ) = exp[- ee Z^ G— 9] (16. 1) 





图 16.1 一 维 的 高 斯 分 布 和 二 维 的 高 斯 分 布 


16. 1.2 高 斯 混合 模型 


前 面 讲 过 了 融 斯 混合 模型 的 动机 ,也 在 单 遍 斯 模型 中 介绍 了 局 斯 模型 PDF 的 表达 式 
和 相应 的 概率 图 。 下 面 介 绍 局 斯 混合 模型 , 先 看 一 个 二 观 的 实例 ,如 图 16. 2 Brzs GE UC 
HIE ED, 

图 中 所 示 为 一 个 数据 集 , 那 么 如 何 用 一 个 PDF 来 描述 图 中 不 同 种 类 高 尾 花 数据 的 分 
布 。 如 采用 一 个 融 斯 显然 误差 很 大 ,日 然而 然 地 束 用 到 多 个 融 斯 ,多 个 融 斯 的 混合 柠 型 表 


IRA: 


f = Pift || i paa (16.2) 
每 一 个 f; 是 一 个 单 高 斯 分 布 ,三 表示 混合 概率 密度 ,可见 f RRA k 个 单 高 斯 模型 
的 加 权 和 的 形式 。 
图 16. 3( 详 见 文 前 彩 搬 ) 所 示 为 几 个 不 同 高 斯 混合 模型 。 


第 16 章 “高 斯 混合 模型 ; 203 : 


Sepal width/cm 





Sepal length/cm 
图 16.2 S REESE SE 


Fisher Iris Dataset 





4.5 
5 5 5 
z E E 
JO T T 
[: se 上 E 
Nm" p * ab -— * lr) — 
ci ^" ci ci 
-- E c 
D D D 
un un un 
4 3 6 7 8 4 5 6 7 8 4 3 6 7 8 
Sepal length/cm Sepal length/cm Sepal length/cm 
(a) (b) (c) 


图 16.3 不 同 的 聚 类 方式 (黑色 虚线 椭圆 代表 一 个 类 ) 


图 16. 3 中 每 一 个 椭圆 代表 一 个 高 斯 成 分 的 投影 ,也 是 一 个 置信 区 间 。 根 据 聚 类 簇 个 
数 的 不 同 , 可 以 有 多 种 结果 ,图 16. 3(a) 和 图 16. 3(b) 的 模型 中 有 两 个 高 斯 成 分 ,但 是 每 个 
SGM 的 参数 不 同 。 图 16. 3(c) 中 有 3 个 高 斯 成 分 。 那 么 到 底 最 优 的 聚 类 方案 是 什么 ? 
或 者 图 中 的 哪 种 方案 更 好 ? 也 就 是 说 要 用 一 组 高 斯 来 表示 数据 的 分 布 ,这 一 组 高 斯 可 以 
调节 的 参数 有 高 斯 成 分 的 个 数 , 每 个 高 斯 成 分 的 权重 ,以 及 每 个 SGM 参数 的 均值 和 方 
差 。 当 知道 这 些 参 数 时 ,就 得 到 图 中 所 示 的 一 种 情况 。 看 起 来 似乎 图 16. 3(c) 更 加 合理 ， 
因为 这 种 情况 下 的 高 斯 图 数 很 好 地 刻 男 了 数据 的 分 布 趋势 ,但 这 只 是 定性 的 观察 ,还 需要 
定量 的 分 析 。 高 斯 混合 模型 就 提供 了 一 套 完 整 的 理论 来 解决 这 个 问题 。 在 具体 介绍 
GMM 之 前 ,可 以 先 看 一 下 它 的 聚 类 效果 ,如 图 16.4 所 示 ( 详 见 文 前 彩 插 )。 

由 图 16.4 可 见 , 不 同 的 GMM 在 一 是 程度 上 都 很 好 地 区 分 了 3 类 数据 。 但 是 在 细节 
的 表现 上 有 所 不 同 。 这 些 细节 由 MATLAB 提供 的 两 个 参数 决定 ,一 个 是 协 方差 矩阵 的 
形式 ,参数 取 值 可 以 是 full 或 diagonal。 另 外 根据 各 个 单 高 斯 模型 是 否 共 享 协 方差 矩阵 ， 
ShareCovariance 可 以 设置 为 true 或 false。 根 据 这 两 个 参数 的 设置 ,会 有 4 种 不 同 的 情 
况 ,对 应 的 聚 类 结果 分 别 如 图 16.4 所 示 。 阴 影 代 表 每 个 species WRX DC B," x" [CA hj 
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Sigma is diagonal, SharedCovariance = true Sigma is diagonal, SharedCovariance = false 





Sigma ls full, SharedCovariance = true Sigma ls full, SharedCovariance = false 





16.4 GMM Æ Fisher Iris 数据 集 上 的 聚 类 效果 


个 聚 类 的 中 心 。 


16.1.3 模型 的 建立 


A AAKS GMM 的 思想 ,现在 需要 用 数学 工具 来 表达 这 个 过 程 。 首 先 需 要 一 个 
概率 模型 来 描述 含有 隐 变 量 的 数据 ,为 此 引入 一 个 隐 变 量 z=” 表示 第 i 个 样本 点 属于 每 个 
高 斯 成 分 的 概率 和 。z 中 符合 多 项 分 布 , 即 、 

pl” = j) = »[* b 0. > 一 ] (16. 3) 
那么 自然 地 p(x 1z”) 服 从 第 j 个 高 斯 分 布 ,表示 为 : 
| 
有 了 了 前面 的 假设 ,所 有 数据 的 似 然 图 数 可 以 表示 为 : 


i($.u 3 )— b» log p Cx? ;$.u o ) 
i=] 


m k 
"a > log x pic" | g ;u. X J plz” ;$) (16. 4) 
i 二] 


LU 一 
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16.1.4 模型 参数 的 求解 


前 面 构 建 了 一 个 概率 模型 ,表示 为 多 个 部 斯 加 权 和 的 形式 。 似 然 消 数 LC .u 2 Za i 
了 对 于 参数 为 ($,u,3 ) 的 一 个 GMM 来 说 ,观测 样本 集 关 出 现 的 概率 大 小 。 这 是 一 个 参 
数 化 的 模型 ,如 何 求解 模型 的 参数 呢 ? 日 然 的 想法 是 最 大 化 似 然 函数 ,也 就 是 通过 算法 求 
得 一 组 参数 | p o Di 11 使 上 面 的 似 然 水 数值 最 大 , 通 委 的 做 法 是 求 导 令 它 等 于 等 。 但 
是 经 过 推导 后 会 发 现 对 于 这 个 问题 令 其 导数 为 零 无 法 得 到 一 个 闭环 解 。 实 际 上 这 里 主要 
是 因为 Z 是 未 到 的 ,如 果 Z 已 知 , 那 么 就 变 成 了 融 斯 判别 分 析 模 型 ,完全 可 以 通过 导数 为 
0 求解 。 对 于 这 种 含有 隐 变 量 的 优化 问题 ,可 以 信 助 前 面 讲述 的 期 望 最 大 化 (Expectation 
Maximization, EM) 算 法 求解 。 

EM 算法 是 一 种 迭代 算法 ,主要 分 为 E-step 和 M-step。 主 要 的 思想 是 通过 最 大 化 目 
标 辆 数 的 一 个 紧 下 限 商 数 来 加 接地 最 大 化 目标 函数 ,之 所 以 用 一 个 下 限 函 数 的 原因 是 下 
限 商 数 的 最 值 比较 容易 求 得 。 对 于 GMM ,在 E-step 试图 猜测 > 的 值 , 也 就 是 当前 样本 
可 能 来 日 哪个 component, 然 后 基于 当前 的 猜想 更 新 模型 参数 。 鼻 法 如 下 。 

E-step ,对 于 每 个 zi 计算 zx" 的 后 验 概率 : 

a =p" | 

M-step ,更 新 模型 参数 : 





» ww? WIN 


33572 (4 O — u;) pa — u;)! 
D-a 
i 2 wf 
注意 E-step 中 的 wi 的 订 算 公式 为 ; 
wi = p(z" -—j|x"?i;ó.n.X) 


uU) AM. LL E T4. — IIHM 
pc |2” = hg Z) pR” = ji9) (16. 6) 





~ 
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通过 式 (16.5) 和 式 (16.6) 不 断 迭 代 耳 到 收 钱 (模型 参数 变化 小 于 某 一 个 国 值 S. 
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/*" 16.2. GMM 算法 的 MATLAB 实践 


16.2.1 生成 一 个 高 斯 混合 模型 


利用 MATLAB 明 这 的 机 器 学 习 工 具 箱 中 的 高 斯 混合 模型 类 ,可 以 方便 地 生成 多 维 
高 斯 混合 模型 并 执行 一 些 模型 拟 合 、. 聚 类 分 类 等 工作 。 下 面 介绍 MATLAB 中 与 GMM 
TH 2& AJ — 96 pR C 

MATLAB 中 生成 一 个 高 斯 混合 模型 的 图 数 是 gmdistribution()。 这 个 图 数 的 参数 
有 均值 ,方差 和 每 个 成 分 的 权重 。 一 个 实例 代码 如 下 (gmm_basic. m 文件 的 部 分 代码 ): 


$% 当 生成 高 斯 混合 模型 


| & 声明 GMM 需要 的 参数 
clc 
clear 
close all 
Mu = [1 2; - 3-5]; % 均值 
| Signa = cat(3,[2 0;0 .5],[1 0;0 1]); $ HÆ, cat 图 数 将 两 个 矩阵 在 某 个 维 上 进行 连接 
P = ones(1,2)/2; & dn AX 
s 创建 GMM 模型 
gm = gmdistribution(Mu, Sigma, P); 
% 显示 GMM 的 属性 
properties = properties(qgm) 
| % [£7 GMM 的 PDF 
gmPDF = (9 (x, y)pdf (gm, [x y]); 
| f = figure 
| set(f, 'Position', [100 100 800 500]); 
pl subplot(121); 
ezsurf(gmPDF,[ - 10 10],[ - 10 10]) 
title( PDF of the GMM'); 
set(pl, 'FontSize', 9) 
% 图 示 CDF 
gnCDF = (2 (x, y)cdf (gm, [x y]); 
p2 = subplot(122); 
ezsurf((2 (x, y)cdf (gm, [x y]),[ - 10 10],[ - 10 10]) 
title('CDF of the GMM'); 


set(p2, 'FontSize', 9) 





在 上 面 的 脚本 中 ,首先 生成 了 一 个 具有 两 个 成 分 的 高 斯 混合 模型 。 为 了 了 解 这 个 高 
斯 类 具有 哪些 属性 和 方法 ,可 以 用 properties() 轴 数 显 示 。 最 后 图 示 了 了 GMM 的 概率 密度 
PR ZUR SR TRES 2S BE BRL. E HJ PDF 和 CDF 如 图 16.5 所 示 。 
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图 16.5 利用 MATLAB 函数 生成 高 斯 混合 模型 实例 


从 图 16. 5 中 可 以 看 出 ,概率 密度 函数 有 两 个 尖峰 ,分 别 对 应 了 两 个 单 高 斯 成 分 。 而 
累积 概率 密度 是 一 个 递增 函数 ,从 图 中 也 能 得 到 验证 ， 


16.2.2 WA GMM 


前 面 是 已 知 GMM 的 均值 . 协 方差 矩阵 和 混合 系数 ,产生 了 一 个 GMM 模型 。 那 么 
如 果 现 在 只 有 一 些 样本 数据 ,不 知道 GMM 的 模型 参数 ,怎样 求 出 这 些 参数 呢 ? 这 就 是 
GMM 的 拟 合 问题 。 所 用 的 算法 就 是 之 前 介绍 的 EM 算法 。 在 MATLAB 实现 这 个 功能 
的 图 数 是 fitgmdistO ,下 面 是 它 的 两 种 用 法 。 
GMModel = fitgmdist(KX,k) | 
GMModel = fitgmdist(X,k, Name, Value) 
T — Áe€—Á — 
A.X 是 样本 数据 ,k 是 成 分 的 个 数 ,附加 参数 Name, Value 是 额外 再 明 的 字典 形 
式 的 参数 ,如 协 方差 矩阵 的 形式 。 一 个 实例 如 下 (gmm_basic. m 文件 的 部 分 代码 ): 
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ss 拟 合 一 个 GMM 模型 
外 产生 两 个 二 维 的 单 高 斯 模型 ,并 用 来 产生 模拟 数据 


m T a T T P T T T n m c T T T C We a M e M C A x MT I x m x M e T NL 
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close all 
clear 
& 第 一 个 高 斯 
mul = [1 2]; 
Sigmal = [2 0; 00.5]; 
* 第 二 个 高 斯 
m2 =[-3-5]; 
Sigma2 = [1 0;0 1]; 
rng(1); 和 为 了 重复 再 现 
根据 两 个 高 斯 模型 ,分 别 随机 产生 1000 个 样本 点 ,并 组 合 在 一 起 
X = [mvnrnd(mul,Sigmal,1000);mvnrnd(mu2,Sigma2,1000])]; 
s 模型 拟 合 ,声明 两 个 成 分 ,gm 是 一 个 结构 体 , 保 存 了 拟 合 模型 的 参数 
gm = fitgmdist(X, 2); 


s 画 出 拟 合 的 高 斯 模型 
y "[zeros(1000,1);ones(1000, 1) ]; s 两 类 数据 的 标签 


h= gscatter(X(:,1),X(:,2), y); 

% set(gca, 'YLim', [ — 10 10]); 

hold on 

ezcontour( (d (x1, x2) pdf (gm, [x1 x2]), get(gca, ( 'XLim', 'YLim'])) 
title('(Mof 散 点 图 和 拟 合 的 高 斯 模型 轮廓 }') 

legend(h, 'Model 0', 'Modell', 'Location', 'SouthEast') 

set(gca, 'YLim', [-88], 'XLim', [7-66], 'FontSize', 9); 
set(gcf, 'Position', [100 100 400 300]); 


hold off 

$ 打印 参数 

properties(gm) 

gn. mu 显示 均值 





gm. Sigma & 显示 协 方差 矩阵 


在 上 面 的 代码 中 , 自 先 人 工 生 成 了 两 个 二 维 单 高 斯 模型 的 数据 ,分 列 如 图 16. 6( 详 见 
文 前 彩 插 ) 中 红色 点 和 蓝 色 点 所 示 。 然 后 调用 了 fitgmdist 方法 求解 模型 参数 。 图 示 可 以 
看 出 拟 合 的 模型 和 真实 的 数据 分 布 十 分 接近 。 为 了 定量 地 观察 拟 合 结 采 ,下 面 给 出 拟 合算 
法 得 到 的 模型 均值 和 方差 。 从 数值 上 可 以 看 出 ,EM 算法 得 出 的 绪 果 和 真实 分 布 很 接近 。 


gm. mu = 
0.9812 2.0563 
—3.0377 一 4.9859 
qm. Siqma( :，:，1) = 
1.9919 0.0127 
0.0127 B. 5533 
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qm. Sigma( y TFA = 
1.0132 0.0482 
0.0482 0.9796 


散 点 图 和 拟 合 的 高 斯 模型 轮廓 





图 16.6 拟 合 高 斯 混合 模型 实例 


16.2.3 GMM 聚 类 实例 


GMM 第 被 用 于 聚 类 。 通 币 给 定 一 个 样本 点 ,为 了 把 它 归 为 合适 的 类 别 中 ,GMM 2 
用 的 思路 是 : 计算 这 个 样本 点 关于 每 个 高 斯 成 分 的 后 验 概率 ,然后 选择 后 验 概 率 最 大 的 
类 别 作 为 它 的 标签 。 在 MATLAB 中 ,可 以 利用 gmdistribution. cluster O PR ZI 5e JF 3x A 
功能 。 一 般 情 况 下 ,把 一 个 点 只 归纳 为 一 个 cluster 的 情况 , 称 为 便 聚 类 (Hard Cluster). 
还 有 一 种 情况 ,每 个 点 都 会 针对 每 一 个 cluster 计算 一 个 分 数 (Score) ,对 于 GMM 来 说 ， 
这 个 分 数 就 是 后 验 概率 。 在 这 种 情况 下 ,一 个 点 (Query Point) 可 以 属于 多 个 类 ,也 就 是 
说 它 可 能 具有 多 个 标签 , 称 为 软 聚 类 (Soft Cluster). 


1. GMM F EE 2E 


GMM 硬 聚 类 方法 可 以 分 为 以 下 步骤 ,其 算法 实现 如 下 。 
D 产生 数据 (gmm basic. m 文件 的 部 分 ) 


rng default; $% For reproducibility 


mul = [1 2]; 
sigmal = [3 0.2; 0.22]; 
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m2 =[-1-2]; 
sigma2 = [2 0; O 1]; 

& 两 个 高 斯 的 数据 样本 
X = [mvnrnd(mul, sigmal,200); mvnrnd(mu2,sigma2,100)]; 





n= size(X,1); 

scatter(X(1:200,1),X(1:200,2),15, 'ro', '£illed'); 
hold on; box on 

scatter(X(201:end,1), X(201:end, 2), 15, 'bo', '£illed'); 
set(gcf, 'Position', [100 100 400 400]); 

title( ' 仿 真 数据 '); 


set(gca, 'FontSize', 10); 


结果 如 图 16.7 所 示 。 
仿真 数据 


e Cluster |l 
e Cluster 2 





图 16.7 人 工 仿 真 数据 
2) 拟 合 模型 (gmm basic. m 文件 的 部 分 ) 


$ 可 选 参数 设置 ( 接 上 一 段 程序 ) 

options = statset( Display', 'final'); 

gm = fitgmdist(X,2, 'Options',options) 

* 画 出 拟 合 模 型 的 投影 散 点 图 : 

hold on 

ezcontour((9 (x, y)pdf (gm, [x y]),[ -66],[-66]); 
title( ' 散 点 图 和 拟 合 GMM 模型 ') 

xlabel('x'); ylabel('y'); 

set(gcf, 'Position', [100 100 450 360]); 
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拟 合 一 个 能 够 刻画 仿真 数 据 的 高 期 混合 模型 ,效果 如 图 16. 8 所 示 。 
散 点 图 和 拟 合 GMM 模 型 


+ 
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一 4 è Cluster 1 


x 2 € Cluster 2 





图 16.8 拟 合 的 高 斯 混合 模型 


可 以 看 出 拟 合 模型 有 两 个 中 心 ,分 别 代 表 两 个 高 斯 成 分 。 

3) 聚 类 

有 了 拟 合 模型 就 可 以 用 gmdistribution 的 cluster 方法 来 对 数 进行 便 聚 类 ,脚本 如 下 
(gmm basic. m 文件 的 部 分 ): 


当 利 用 cluster 7j i RÆ 

idx = cluster(gm, X); 

estimated label = idx; 

ground truth label = [0ones(200,1); 2 * ones(100,1)]; 
k = find(estimated label ~= ground truth label); 

标记 错误 分 类 的 点 为 数字 3 

idx(k,1) = 3; 

figure; 

gacatter(X :, 1], X1:, 2), idz); 

legend('Cluster 1', Cluster 2', 'error', 'Location', 'NorthWest'); 
title('GMM 聚 类 ') ; 

set(gcf, 'Position', [100 100 400 320]); 


结果 如 图 16. 9 所 示 。 
图 16. 9( 详 见 文 前 彩 搬 ) 中 绿色 的 点 和 红色 的 点 分 别 代 表 类 别 为 1 和 2 的 样本 点 。 
蓝 色 表示 分 错 的 样本 点 。 可 以 看 出 利用 GMM 能 够 获得 很 高 的 分 类 正确 率 。 
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e Cluster |] 
Cluster 2 
e error 





图 16.9 利用 GMM RŽ 


利用 GMM 聚 类 不 仅 能 够 对 每 个 样本 分 类 ,实际 上 还 可 以 算出 每 个 样本 点 对 各 个 类 
别 的 后 验 概率 , 即 隶 属 度 。 这 里 主要 用 到 posterior() 函 数 ,代码 如 下 (gmm_basic. m 文件 
的 部 分 ): 


计算 后 验 概率 ( 接 上 文 ) 

sp 是 nx*2 和 矩阵 ,每 一 行 是 一 个 样本 点 ,每 一 列 代 表 对 于 两 个 类 的 隶属 度 大 小 

P = posterior(gm,X); 

& 标记 类 别 

clusterl = (idx == 1); | 
cluster2 = (idx == 2); 

figure; 
s% Kyl 1 

scatter(X(clusterl,1),X(cluster1,2),15,P(clusterl1,1), '* ') 
hold on 

scatter(X(cluster2,1),X(cluster2,2),15,P(cluster2,1), 'o') | 
hold off 

clrmap = jet(80); 

colormap(clrmap(9:72,:)) 

ylabel(colorbar, '® T 25 3| 1 的 后 验 概率 ') 

title( "隶属 类 别 1 的 后 验 概率 ') 

legend('cluster- 1', 'cluster- 2') 

set(gcf, 'Position', [100 100 400 320]); 


box on 
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结果 如 图 16. 10( 详 见 文 前 彩 插 ) 所 示 。 
隶属 类 别 1 的 后 验 概率 


验 概率 


l] 


属于 类 别 1 的 ] 


Cluster 1 
O Cluster 2 





图 16.10 ”类别 1 的 隶属 度 


在 上 面 的 代码 中 ,利用 posterior() 函 数 计算 了 每 个 样本 的 隶属 度 。 人 然后 通过 colorbar 
显示 出 来 。 图 中 越 接 近 红 色 表 示 属 于 类 别 1 的 概率 越 大 ,相反 , 越 接近 蓝 色 表示 属于 类 别 
2 的 概率 大 。 可 以 看 出 对 于 上 下 边 绿 的 数据 都 有 了 明确 的 类 别 标 签 , 而 对 于 中 间 分 界 处 的 
数据 就 有 些 模 校 两 可 ,因为 它 属于 两 个 类 的 概率 都 很 大 。 这 也 是 为 什么 这 个 区 域 的 数据 
容易 分 错 的 原因 。 

4) 对 新 的 数据 分 类 

上 面 的 实例 展示 了 拟 合 模型 在 训练 数据 上 的 聚 类 效果 。 如 果 有 一 批 新 的 数据 点 ,不 
在 训练 集合 中 ,那么 这 个 方法 的 效果 如 何 呢 ? 下 面 的 实例 将 会 解决 这 个 问题 。 首 先 在 代 
码 中 生成 一 个 高 斯 混合 模型 ,利用 GMM 的 random 方法 来 随机 地 生成 测试 点 。 然 后 利 
用 拟 合 模型 的 聚 类 方法 ,观察 聚 类 效果 (Newdata_Clu. m 文件 ) ,生成 图 像 如 图 16. 11 所 
示 ,从 图 示 中 可 以 看 出 ,生成 的 数据 被 很 好 地 区 分 开 来 。 


$5; 产生 75 个 测试 点 

Mu = [ mul; mu2]; 

Sigma = cat(3,sigmal,sigma2); 

p= [0.75 0.25]; 

gmTrue = gmdistribution(Mu, Sigma, p); $ 生成 一 个 高 斯 混合 模型 

X0 = random( gmTrue, 75) ; 

新 数据 聚 类 

[ idx0, ~, FO] = cluster(qm, X0); 

figure; 

1 = ezcontour((G (x, y)pdf(gm, [x y]), [min(X0(:,1)) max(X0(:,1))], ... 
[min(X0(:,2)) max(X0(:,2))]); 
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hold on; 

gscatter(X0(:,1),X0(:,2), idx0, 'rb',' + o"); 

legend( (JE SbBS','Cluster 1', 'Cluster 2', 'Location', 'NorthWest'); 
title( Jl ix Er cds or SUR C) 

hold off; 

set(gcf, 'Position', [100 100 400 320]); 

set(l, 'LineWidth', 2); 


Wl TC ES RAR 


6- CD (msc 
+ Cluster ] 
O Cluster 2 





图 16.11 利用 拟 合 模型 对 新 的 数据 分 类 


2. GMM 软 聚 类 


下 面 展 示 如 何 利 用 GMM 软 聚 类 。 要 实现 soft clustering 需要 以 下 3 个 步骤 。 

(1) 为 每 一 个 query point 计算 它 关 于 每 个 cluster 的 隶属 度 。 这 个 隶属 度 用 来 描述 
这 个 点 和 每 个 类 别 的 相似 度 。 

(2) 根据 隶属 度 的 值 排序 。 

(3) 通过 分 数 决 定 这 个 点 的 所 属 类 别 。 

对 于 以 后 验 概率 作 为 得 分 标准 的 算法 ,一 个 点 通常 被 分 配 到 具有 最 大 后 验 概率 的 类 
别 。 但 是 ,可 能 对 于 有 些 样本 点 ,它们 对 于 每 个 cluster 的 得 分 都 很 相近 。 那 么 这 个 点 就 
同时 可 以 具有 其 他 cluster 的 属性 。 这 就 是 软 聚 类 ， 

同样 地 ,采用 相同 的 训练 数据 (人 硬 聚 类 的 数据 ) 来 实现 软 肾 类 的 代码 如 下 (gmm_ 
basic. m 文件 的 部 分 ): 





ss 软 聚 类 的 例子 

clear; close all 

rng(3)  %For reproducibility 

mul = [1 2]; 

sigmal = [3 0.2; 0.2 2]; 

mu22[—-1-2]; 

sigma2 = [2 0; 0 1]; 

$ 行 聚 类 的 数据 

X = [mvnrnd(mul, sigmal,200); mvnrnd(mu2,sigma2,100)]; 

gm = fitgmdist(X,2); 

* 后 验 概率 如 条 在 [0.4，0.6] 范 围 内 , 则 认为 可 以 同时 

threshold= [0.4 0.6]; 

$ 用 posterior 函数 求 样本 数据 X 关 于 每 个 成 分 的 后 验 概率 ,P 是 nx*k 和 矩阵 
P= posterior(gm,X); 

sn 是 样本 数 ,下 面 用 sort 图 数 对 每 个 类 的 隶属 度 大 小 排序 ,这 里 只 有 两 个 类 
n= size(X,1); 

% order 返回 隶属 度 值 从 小 到 大 的 对 应 样本 的 索引 

[ ~, order] = sort(P(:,1)); 

figure 

subplot(121) 

plot(1:n,P(order,1), 'r- ',1:n,P(order,2), 'b- ', 'LineWidth', 1.5) 
legend((['Cluster 1', 'Cluster 2']) 

ylabel('sR/m BE ') 

xlabel( ' 样 本 点 ') 

title( 'GMM 聚 类 的 隶属 度 曲线 ') 

$ 确定 同时 属于 两 个 类 的 点 

idx = cluster(gm, X); 

idxBoth = find(P(:,1)>= threshold(1) & P(:,1)<= threshold(2)); 

名 返回 同时 属于 两 个 cluster 的 样本 个 数 

numInBoth = numel( 1dxBoth) 

subplot(122) 

gscatter(X(:,1),X(:,2), idx, 'rb', 'po', 5) 

hold on 

scatter(X(idxBoth,1),X(idxBoth,2), 30, 'b','filled') 

legend(( Cluster 1', 'Cluster 2', 'Both Clusters'], 'Location', 'SouthEast', 'FontSize', 8) 
title( EX X25) 

xlabel('$ x$ ', 'Interpreter', 'Latex') 

ylabel('$S y$ ', 'Interpreter', 'Latex') 

hold off 

set(gcf, 'Position', [100 100 600 260]); 
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在 上 面 的 代码 中 ,首先 是 生成 了 训练 数据 X. ja 8H] fitgmdist 图 数 拟 合 一 个 高 斯 
混合 模型 ,最 后 调用 posterior 图 数 显示 每 个 样本 对 于 各 个 类 别 的 隶属 度 ,并 在 图 中 显示 ， 
如 图 16. 12 所 示 ( 详 见 文 前 彩 插 )。 


GMM 聚 类 的 隶属 度 曲 线 SES 
* Cluster 1 
O Cluster 2 
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Cluster 2 
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图 16.12 隶属 度 值 和 软 聚 类 


图 16. 12 中 的 两 条 曲线 分 别 展示 了 300 个 样本 点 在 两 个 类 中 的 隶属 度 值 。 如 果 是 在 
散 点 图 中 ,那么 不 容易 看 出 两 个 类 的 分 界线 。 但 是 在 图 16. 12(a) 中 ,明显 可 以 看 到 过 渡 
区 域 交 又 的 现象 。 在 这 个 区 域内 的 点 就 可 以 同时 归 到 两 个 类 。 图 16. 12(b) 中 蓝 色 实心 
的 圆 点 表示 同时 属于 两 个 类 的 点 ,在 本 例 中 有 两 个 这 样 的 点 。 


3. GMM 的 协 方差 矩阵 的 结构 


在 本 章 前 面 介绍 了 一 个 实例 ,为 了 说 明 GMM 的 效果 ,实例 中 协 方差 矩阵 有 几 个 不 
闻 选 项 ,导致 拟 合 的 结 末 也 不 相同 。 下 面 将 进一步 探讨 这 个 问题 。 

协 方差 的 形式 会 影响 聚 类 的 效 来 和 拟 合 的 模型 参数 ,表现 为 图 中 投影 轮 遍 曲线 的 形 
状 和 方 品 的 不 同 。 如 果 协 方差 矩阵 是 对 角 阵 ,那么 椭圆 的 主轴 平行 于 坐标 轴 。 如 果 协 方 
阵 是 单位 阵 工 或 cf, 那么 投影 将 是 一 个 圆 。 这 时 候 类 似 于 &-means RERA. SWD% 
矩阵 是 任意 的 矩阵 时 ,投影 视图 是 任意 方位 的 椭圆 或 酉 球体 。 在 MATLAB 的 GMM 模 
型 中 , 协 方差 定 阵 有 以 下 两 种 情况 。 

(1) 由 于 有 个 成 分 ,就 有 个 协 方差 逢 了 泗 。 因 此 第 一 种 情况 是 这 上 个 协 方差 窍 阵 
是 否 相 同 ,在 MATLAB 中 对 应 的 属性 是 'CovarianceType' 和 'SharedCovariance'。 

(2) 每 个 协 方差 矩阵 是 对 角 的 矩阵 还 是 一 般 的 矩阵 ,对 应 属性 是 'diagnonal' 和 'full'。 

上 述 共 计 会 产生 4 种 情况 ,不同 情况 的 结 来 参照 图 16.4 Bron. 


*" 16.3 GMM 的 改进 及 MATLAB 实践 


16.3.1 GMM 的 正则 化 


当 拟 合 数 据 具有 和 较 高 的 相关 性 时 ,求解 协 方差 矩阵 时 容易 出 现 奇 寞 解 , 因 而 是 病态 
的 。 为 了 解决 这 个 问题 ,可 以 伟 助 正则 化 手段 。 使 用 MATLAB A TF H R GMM 时 ,为 
了 引入 正则 化 ,可 以 在 fitgmdist 函数 中 增加 “RegularizationValue” 属 性 实现 正则 化 的 效 
AR. GMM 使 用 正则 化 的 实例 如 下 (gmm_update. m 文件 部 分 程序 ): 


mul = [12]; 
Sigmal = [1 0; 0 1]; 
mu2 = [3 4]; 


Sigma2 = [0.5 0; 0 0.5]; 
rng(1); * For reproducibility 
X1 = [mvnrnd(mul,Sigmal,100);mvnrnd(mu2,Sigma2,100)]; 
这 里 第 三 列 和 前 两 列 是 线性 相关 的 ,因此 容易 出 现 病态 的 情况 
X= [Xl1, XIi(: 321,211; 
rng(1); $ 为 了 重复 ,fit GMM 初始 值 的 选取 是 随机 的 
try 
gm = fitgmdist(X,2) 
catch exception 
disp( ' 拟 合 时 出 现 了 问题 ') 
error = exception. message 
end 
gm = fitgmdist(X,2, 'RegularizationValue',0.1) 
和 利用 cluster 方法 聚 类 
idx = cluster(gm, X); 
estimated label = idx; 
ground truth label- [2 * ones(100,1); ones(100,1) ]; 
k= find(estimated label 一 = ground truth label); 
$ brio fi v Ar 2S] NAF 3 
idx(k,1)23; 
clusterl = idx == 1; 
cluster2 = idx == 2; 
cluster3 = idx == 3 
& 绘图 
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subplot(121) 

scatter3(X(1:100,1),X(1:100,2),X(1:100,3), 15, 'r', '£illed"); 
hold on 

scatter3(X(101:end,1),X(101:end,2), X(101:end, 3), 15, 'b', '£illed'); 
title( "原始 数据 ") 

legend( 'Model - 0', 'Model- 1', 'Location', 'SouthEast') 

* set(gca, 'YLim', [-86], 'XLim', [7-66], 'FontSize', 9); 

set(gcf, 'Position', [100 100 400 300]); 

hold off 

subplot(122) 

scatter3(X(clusterl,1),X(clusterl,2),X(cluster1,3), 15, 'b','filled'); 
hold on 

scatter3(X(cluster2,1),X(cluster2,2),X(cluster2,3), 15, 'r','filled'); 
scatter3(X(cluster3,1),X(cluster3,2),X(cluster3,3), 20, 'g','filled'); 
title( ' 聚 类 结果 ') 

legend( 'Model - 0','Model- 1', 'error', 'Location', 'SouthEast') 

set(gcf, 'Position', [100 100 800 300]); 

hold off 







在 上 面 的 脚本 程序 中 ,首先 也 人 为 地 生成 了 训练 数据 于,X 是 一 个 20053 的 矩阵。 
也 就 是 200 个 样本 点 ,每 个 样本 具有 3 个 特征 。 但 是 与 之 前 的 训练 集 不 同 ,样本 集 于 的 
特征 不 是 独立 的 ,具体 来 说 是 线性 相关 的 。 这 样 直接 用 EM 算法 就 会 出 错 , 因 为 会 出 现 
奇异 矩阵 求 逆 的 运算 。 在 程序 中 使 用 了 try-catch 语句 来 捕捉 这 种 错误 。 一 旦 发 现 这 种 
错误 ,就 选用 带 正则 项 的 算法 来 拟 合 GMM。 最 后 针对 这 样 一 个 具有 相关 变量 的 训练 集 ， 
利用 GMM 聚 类 获得 的 结果 如 图 16. 13 所 示 。 
原始 数据 





图 16.13 使 用 正则 化 的 GMM HITR% 


读者 可 能 会 疑惑 ,到 底 什么 时 候 需 要 用 正则 化 。 一 个 简单 的 做 法 就 是 ,任何 时 候 都 可 
以 用 正则 化 。 如 果 希 望 对 具体 问题 分 析 , 可 以 总 结 出 以 下 几 种 需要 用 到 正则 化 的 情况 ,分 
别 是 训练 数据 太 少 k 的 取 值 太 大 、 变 量 之 间 具有 高 的 相关 性 。 


16.3.2 GMM 中 天 的 选择 问题 


GMM 模型 在 拟 合 时 ,再 要 提前 指定 高 期 成 分 的 个 效 , 也 即 是 有 值 。 不 同 的 & 产 生 的 
结果 差别 很 大 。 如 何 选 择 一 个 合适 的 & 呢 ,当然 可 以 利用 交叉 验证 的 方法 ,或 者 通过 BIC 
准则 来 选择 。 这 里 痛 先 介绍 一 种 利用 主 成 分 分 析 (PCA) 进 行 有 选择 的 方法 ， 

用 PCA 方法 选择 的 主要 思想 是 : 先 利 用 PCA 对 原始 的 高 维 数据 降 维 ,使 得 能 够 
对 降 维 后 的 数据 可 视 化 (一 般 是 二 维 )。 然 后 对 降 维 后 的 数据 训练 GMM 模型 ,测试 不 同 
b 的 效果 ,通过 可 视 化 的 分 类 图 选择 合适 的 有。 一 个 实例 如 下 (gmm update. m 文件 部 分 
程序 ) : 


$5; 拟 合 GMM 时 的 天 选择 问题 





close all 

clear 

s 利用 PCA 数据 探索 

s; 加 载 数 据 集 , 这 个 数据 集 在 UCI, 具体 信息 可 以 查看 UCI 网 站 
load fisheriris 

classes = unique(species) 

$ meas 是 主要 特征 数据 ,四 维 

+ Hj PCA 算法 对 原始 数据 降 维 , score 是 特征 值 从 大 到 小 排列 的 结果 
[ ~, score] = pca(meas, 'NumComponents',2); 
分别 尝 试 使 用 不 同 的 上 来 拟 合 数据 

GMModels = cell(3,1); S 存储 3 个 不 同 的 GMM 模型 


options = statset( 'MaxIter',1000); 

rng(1); * For reproducibility 

& 尝试 选择 不 同 的 components 来 拟 合 模型 

for ] =1:3 
GMModels{]j} = fitgmdist( score, j, 'Options', options); 
fprintf('\n GM Mean for % i Component(s)\n', j) 
Mu = GMModels{ J}. mu 

end 

figure 

for j=1:3 
subplot(2,2, j) 
$ gscatter 可 以 根据 组 (也 就 是 label) [X 47 Bil HH 8X 5 E 
s% 这 里 用 了 二 维 的 信息 ,可 视 化 


| | 
| 
| 
| % 参数 声明 ,最 大 迭代 次 数 
| ims | 
| 
| 
/ \ 
: | 
| 





C Ra score(:,1),score(:,2), species) 
h = gca; 
hold on | 
title(sprintf('GMM 模型 (k= $i) ',3)); 
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[ h. XLim h. YLim],100) 


ezcontour( (à (x1, x2)pdf(GMModels(j),[x1 x2]),... 
| xlabel( ' 第 一 主轴 '); 
1 ylabel( ' 第 二 主轴 ') ; 

if(j ~= 3) 

legend off; 

end 
9 set(gca, 'FontSize', 10); 

hold off 

end 

: g 7 legend; 
g. Position = [0.7 0.25 0.1 0.1]; 
| set(gcf, 'Position', [100 100 500 400]); 


fE ix Ex [V P LUI Z SE ve H E Em ERNE., B 0o HI PCA 方法 对 进行 特征 中 

选 , 只 保留 特征 值 最 大 的 两 个 主轴 。 然 后 用 这 两 个 特征 训练 高 斯 混合 模型 。 在 模型 中 分 

别 选择 了 不 同 的 &。 模 型 的 训练 结果 如 图 16. 14( 详 见 文 前 彩 插 ) 所 示 , 从 图 中 可 以 看 出 ， 

3$ k—3 时 , 拟 合 的 醒 型 更 能 刻画 原始 数据 的 分 布 ,这 和 实际 也 是 符合 的 。 因 为 实际 上 束 
GMM 模 型 (k= 1) GMM 模 型 — 2) 





第 一 主轴 
GMM 模 型 (k= 3) 





E: setosa 
WER e versicolor 
| | e virginica 
DR 

=i 


图 16.14 GMM 中 使 用 不 同上 的 效果 


是 3 个 Cluster。 
上 上 面 只 是 定性 地 从 图 上 得 出 有 = 二 3 的 结论 。 也 可 以 通过 定量 地 分 析 各 个 模型 的 全 对 
数 似 然 函 数值 (损失 函数 , 越 小 越 好 ) 来 选择 模型 。 经 过 训练 得 到 的 数据 如 表 16. 1 所 示 。 
表 16.1 不 同 模型 参数 指标 


"X 281.0 


其 中 -ll 的 值 越 小 越 好 ,所 以 从 定量 计算 上 来 说 ,&=3 的 结果 优 于 其 他 两 种 。 
另 一 种 方法 就 是 计算 AIC 指标 。 对 于 GMM 类 有 一 个 AIC 方法 ,直接 调用 gm. AIC 
束 能 获得 它 的 值 。 选 择 AIC 最 小 值 对 应 的 谨 是 最 佳 的 成 分 个 数 。 


16.3.3 GMM 拟 合 的 初始 值 选 择 问 题 


GMM 利用 EM 算法 进行 模型 拟 合 的 时 候 , 需 要 给 定 初 始 值 ,初始 值 包括 每 个 成 分 的 
均值 和 协 方差 答 阵 。 初 始 值 不 同 可 能 会 得 到 不 同 的 拟 合 和 结果。 在 MATLAB 的 fitgmdist 
方法 中 ,默认 情况 下 算法 会 随机 地 选择 & 个 点 作为 中 心 点 ; 协 方差 矩阵 是 一 个 对 角 阵 ,对 
角 阵 上 第 7 TEREE j CERERE J 列 的 样本 ) 的 方差 ; 而 初始 的 混合 系数 
取 相 等 的 值 。 实 际 上 可 以 自 定 义 这 些 值 ,也 可 以 通过 有 &-means 算法 来 获得 初始 的 均值 和 
协 方差 矩阵 。 下面 的 实例 展示 如 何 设置 不 同 的 初始 值 , 并 比较 它们 的 结果 (gmm_update. m 
文件 部 分 程序 ) 。 


ss 拟 全 高 斯 混合 模型 时 ,设置 初始 值 

clear 

close all 

加载 数 据 集 , 并 且 只 使 用 后 两 个 特征 

load fisheriris 

X= meas( :,3:4); 

& 利用 默认 的 初始 值 拟 合 一 个 GMM, 声明 k -3 
rng(10); * For reproducibility 
GMModell = fitgmdist(X,3); 

& 拟 合 一 个 GMM, 声明 每 个 训练 样本 的 标签 
%y 中 的 数字 代表 不 同 的 种 类 
y-ones(size(X,1),1); 


y(strcmp(species, 'setosa')) = 2; 


C a uu RT LEM At M LTEM Lt EM LN EM Et M LE M LEM Et M T 
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y(strcmp(species, 'virginica')) 23; 

$$ 拟 合 模型 

GMModel2 = fitgmdist(X,3, 'Start', y); 

& 拟 合 一 个 GMM, 显 式 地 声明 初始 均值 , 协 方差 和 混合 系数 

Mu= [1 1; 2 2; 33]; % 均值 

Simal :,1) 2 [1 1; 1 2]; & 每 个 成 分 的 协 方差 矩阵 

2ima&(:,:,2)9525*[l 1; 12]; 

Siqgmal :,2,3) —73*[11; 12]; 

PComponents = [1/2,1/4,1/4]; $$ 混合 系数 

S= struct( 'mu', Mu, 'Sigma', Sigma, 'ComponentProportion', PComponents); 

GMModel3 = fitgmdist(X,3, 'Start', 5); 

名 利用 ascatter 图 数 绘图 

figure 

subplot(2,2,1) 

原始 样本 

h= gscatter(X(:,1),X(:,2), species,[], 'o',4); 

haxis = gca; 

xlim- haxis.XL1im; 

ylim = haxis.YLim; 

d= (max([xlim ylim]) ~ min([xlim ylim]))/1000; 

[X1Grid, X2Grid] = meshgrid(xlim(1):d:xlim(2), ylim(1):d:ylim(2)); 

hold on 

$ GMM 模型 轮廓 图 

contour(XlGrid, X2Grid, reshape( pdf ( GHModell,[X1Grid(:) X2Grid(:)]),... 
size(XlGrid,1),size(XlGrid,2)),20) 

uistack(h, 'top') 

title('(Mof 随机 初始 值 }'); 

xlabel('Sepal length'); 

ylabel('Sepal width'); 

legend off; 

hold off 

subplot(2,2,2) 

h= gscatter(X(:,1),X(:,2), species,[ ], 'o', 4); 

hold on 

contour( X1Grid, X2Grid, reshape( pdf (GMMode]l2, [X1Grid(:) X2Grid(:)]), ... 
size(X1Grid,1),size(XlGrid,2)),20) 

uistack(h, 'top') 

title('(Wof 根据 标签 确定 初始 值 } '); 

xlabel('Sepal length'); 





ylabel( 'Sepal width'); 

legend off 

hold off 

subplot(2,2,3) 

h= gscatter(X(:,1),X(:,2), species, [ ], 'o', 4); 

hold on 

contour( X1Grid, X2Grid, reshape( pdf ( GHModel3, [X1Grid(:) X2Grid(:)]), ... 
size(XlGrid,1),size(XlGrid,2)),20) 

uistack(íh, 'top') 

title( '{\bf 给 定 初始 值 }'); 

xlabel('Sepal length'); 

ylabel('Sepal width'); 

legend('Location',[0.7,0.25,0.1,0.1]); 

hold off 

* 显示 估计 模型 的 均值 

table(GMModell.mu, GMModel2.mu, GMModel3.mu, 'VariableNames',... 
{ 'Model1', 'Model2', 'Model3']) 





在 这 段 脚 本 中 ,构建 了 3 个 高 斯 混合 模型 。 用 相同 的 数据 集训 练 这 3 个 模型 。 不 同 
的 是 拟 合 模型 的 初始 条 件 不 同 , 最 后 获得 的 模型 也 不 同 , 如 图 16. 15 所 示 , 从 图 中 可 以 看 
出 Model2 更 符合 数据 的 分 布 规律 。 


3 随机 初始 但 3 根据 标 窒 确定 初始 值 


Sepal width 
Sepal width 





Sepal length Sepal length 
3 给 定 初始 值 
as <D datal 
= O virginica 
a versicolor 
a o setosa 
un 





Sepal length 


图 16.15 GMM 中 初始 值 的 选择 问题 
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DBSCAN 算 法 





DBSCAN(Density-Based Spatial Clustering of Applications with Noise) && — ^F EE 
AH fee ERU AE- T EERE. Bx) UE 828r EAS E, CHIRE Oy E EH 
连 的 点 的 最 大 集合 ,把 具有 足够 高 密度 的 区 域 划分 为 复 ,并 可 在 具有 了 噪声 的 空间 数据 库 中 


e 17.1 DBSCAN 算法 原理 


17.1.1 DBSCAN 算法 的 基本 概念 


DBSCAN 是 一 个 基于 密度 的 聚 类 算法 。 基 于 密度 的 聚 类 是 寻找 被 低 密度 区 域 分 离 


的 高 密度 区 域 。 因 此 ,首先 要 讨论 下 密度 的 定义 。 数 据 集中 特定 点 的 密度 可 以 通过 该 点 
Eps 半径 之 内 的 点 计数 (包括 本 喘 ) 来 估计 。 基 于 这 个 测度 ,在 DBSCAN 中 将 点 分 为 3 
类 : 笛 密 区 域内 部 的 氮 ( 核 心 点 )、 笛 密 区 域 边 绿 上 的 点 (边界 点 ) 和 称 巩 区 域 中 的 点 (噪声 
BUR E RU, 

更 加 数学 化 的 定义 如 下 。 


核心 点 (Core Point) : 在 半径 Eps 内 含有 超过 MinPts 数目 的 点 , 则 该 点 为 核心 点 ,这 
些 点 都 是 在 簇 内 的 。 

边界 点 (Border Point); 在 半径 Eps 内 点 的 数量 小 于 MinPts, 但 是 属于 核心 点 的 
邻居 。 

噪声 点 (Noise Point) : 任何 不 是 核心 点 或 边界 点 的 点 。 

Eps 是 一 个 全 局 的 给 定 的 半径 ,MinPts 决定 了 成 为 核心 点 至 少 需要 的 数据 点 个 数 。 


4t 
£ 
4t 


ef 
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为 了 便于 理解 ,通过 一 个 实例 解释 。 如 图 17. 1 所 示 , 取 MinPts— 5. TE A A 的 Eps 领域 
内 ,点 的 个 数 等 于 3, 小 于 MinPts, A EIEE A., ÆA B 的 Eps 领域 内 ,点 的 个 数 等 于 
6 ,是 一 个 核心 点 。 在 点 C 的 Eps 领域 内 点 的 个 数 是 4, 因此 它 不 是 一 个 核心 点 ,但 是 该 点 处 
于 B 核 心 点 的 邻 域 内 ,因而 是 一 个 边界 点 。 有 了 这 个 了 是 观 的 认识 ,可 以 定义 如 下 的 概念 。 





图 17.1 核心 点 .边界 点 和 噪声 点 举例 


Eps 邻 域 : 给 定 对 象 半 径 大 小 为 Eps 区 域内 的 状态 空间 称 为 该 对 象 的 Eps 邻 域 , 用 

Nes (DRIA p 的 Eps 半径 内 的 点 的 集合 , 即 
Ng. Cp) = tq | q EREE D 中 ,distance(p,g) x Eps) 

核心 对 象 : 如 果 对 象 的 Eps 邻 域 至 少 包 含 最 小 数目 MinPts 个 对 象 , 则 称 该 对 象 为 核 
心 对 象 。 

边界 点 : 边界 点 不 是 核心 点 ,但 落 在 某 个 核心 点 的 邻 域内 。 

噪声 点 : 既 不 是 核心 点 ,也 不 是 边界 点 的 任何 点 。 

直接 密度 可 达 : 给 定 一 个 对 象 集 合 DWE p Eq 的 Eps 邻 域内 ,而 g 是 一 个 核心 对 
象 , 则 称 对 象 p 从 对 象 g 出 发 时 是 直接 密度 可 达 的 (Directly Density-Reachable) 。 

密度 可 达 : WIARAETE—TOABEDi.poevsbebi—q. p.o— pb T pi EDASISN), 
bin ÆA p; 关于 Eps 和 MinPts 直接 密度 可 达 的 , 则 对 象 p EARR q 关于 Eps 和 
MinPts 密度 可 达 的 (Density-Reachable) 。 

密度 相连 : 如果 存 在 对 象 OED, 使 对 象 p Mq 都 是 从 O 关于 Eps 和 MinPts 密度 可 
达 的 ,那么 对 象 p 到 g 是 关于 Eps M MinPts 密度 相连 的 (Density-Connected ) 。 

如 图 17.2 所 示 ,Eps 用 一 个 相应 的 半径 表示 , 设 MinPts=3 ,分 析 Q、M、P、 SO\R 这 
5 个 样本 点 之 间 的 关系 。 由 于 有 标记 的 各 点 M、P.O 和 R 的 Eps 近邻 均 包 含 3 个 以 上 的 
点 ,因此 它们 都 是 核对 象 ; M 是 从 P“ 直 接 密 度 可 达 ” 的 ; 而 Q 则 是 从 M"“ 直 接 密 度 可 达 ” 
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的 ; ETERRA, Q 是 从 已 "密度 可 达 ”" 的 ; 但 己 从 Q 无 法 “密度 可 达 ”( 非 对 称 ) 的 。 类 
似 地 ,S LR 从 O 是 “密度 可 达 ” 的 ; OR A S 均 是 “密度 相连 ”的 。 





图 17.2 几 个 概念 的 直观 解释 


17. 1.2 DBSCAN 算法 原理 


有 了 上 面 的 基本 概念 后 ,就 可 以 掌握 DBSCAN 算法 的 核心 思想 。 

(1) DBSCAN 通过 检查 数据 集中 每 点 的 Eps PERRIERI. WRA p 的 Eps BE 
含 的 点 多 于 MinPts 个 , 则 创建 一 个 以 p 为 核心 对 象 的 簇 。 

(2) 然后 ,DBSCAN 壕 代 地 聚集 从 这 些 核 心 对 象 直接 密度 可 达 的 对 象 ,这 个 过 程 可 
能 涉及 一 些 密度 可 达 簇 的 合 3 

(3) 当 没 有 新 的 点 添加 到 任何 秘 时 ,该 过 程 结束 。 

聚 类 过 程 如 图 17.3 所 示 ( 详 见 文 前 彩 插 ) ,首先 找到 一 个 核心 对 象 , 假 设 为 A, 以 A 
为 核心 创建 一 个 簇 ,此 时 的 簇 包 含 绿色 箭头 相连 的 点 ,这 些 点 是 直接 密度 可 达 的 。 然 后 ， 
再 考察 直接 密度 可 达 的 对 象 ,发 现 点 B 也 是 一 个 核心 对 象 , 它 的 直接 密度 可 达 对 象 可 以 
拓展 到 浅 蓝 色 滑 头 相 连 的 点 ,此 时 就 有 了 两 个 禾 ,由 于 它们 足够 接近 ,因此 有 理 申 把 它们 


合并 。 依 次 人 循环 这 个 过 程 , 耳 到 所 历 完 所 有 的 点 。 最 终 形成 了 红色 阴影 区 域 和 蓝 色 阴影 
区 域 两 个 类 。 





图 17.3 DBSCAN 算法 聚 类 的 过 程 
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17.1.3 DBSCAN 算法 的 实现 步 又 


了 解 了 DBSCAN 算法 的 思想 后 ,不 难得 到 实现 一 个 DBSCAN RAIRE R. F 
面 将 以 伪 代 码 的 形式 给 出 DBSCAN 算法 的 实现 步 又。 


$558 A: 数据 集 D, 参 数 MinPts, Eps; 输出 : 簇 集合 
将 数据 集 D 中 的 所 有 对 象 标 记 为 未 处 理 状态 
for 数据 集 D 中 每 个 对 象 p do 

if p 已 经 归 入 某 个 族 或 标记 为 噪声 then 

continue; 

else 
检查 对 象 p 的 Eps 邻 域 Nu.(p); 

if Was(DP) 包 含 的 对 象 数 小 于 MinPts then 
标记 对 象 p 为 边界 点 或 噪声 点 ; 


For Nes (p) 中 所 有 尚未 被 处 理 的 对 象 qg do 
检查 其 Eps 邻 域 Nios (p), Æ Ne. (p) 包 含 至 少 MinPts 个 对 象 , 则 将 Nios (p) 中 未 归 入 任何 一 个 簇 
的 对 象 加 入 ; 
end for 
end 1f 


end 1f 


17. 1.4 DBSCAN 算法 的 优 缺 点 


else 
: 标记 对 象 p 为 核心 点 ,并 建立 新 簇 C， 并 将 p 邻 域内 所 有 点 加 入 C 


DBSCAN 算法 是 基于 密度 的 聚 类 算法 , 即 要求 聚 类 空间 中 的 一 定 区 域内 所 包含 对 象 
(点 或 其 他 空间 对 象 ) 的 数目 不 小 于 某 一 给 定 国 值 ,具有 很 多 优点 。 但 是 由 于 它 直 接 对 整 
个 数据 库 进 行 操 作 且 进行 聚 类 时 使 用 了 一 个 全 局 性 的 表征 密度 的 参数 ,因此 也 具有 两 个 
比较 明显 的 弱点 。 总 结 起 来 优点 如 下 。 

d) 聚 类 速度 快 。 

(2) 能 够 发 现任 意 形 状 的 空间 聚 类 。 不 像 基于 距离 的 聚 类 方法 ,如 有 &-means REH 
2i BR [B [8] T EK AA 

(3) REA SICH Ab EE TIR p ex voe IER p CSI US, DBSCAN 是 基于 密度 ,而 噪声 点 





第 17 草 DBSCAN 算 法 


往往 是 少数 的 异常 点 ,因而 是 稀 玲 的 。 所 以 在 聚 类 过 程 中 会 自然 地 被 排除 在 扇 之 外 。 而 
对 于 基于 距离 的 聚 类 方法 ,噪声 点 很 容易 影响 聚 类 的 中 心 和 分 布 ,从 而 得 到 不 理想 的 聚 类 
效果 。 

(4) 5 k-means 比 起 来 ,不 需要 输入 划分 的 聚 类 个 数 。 

(5) 可 以 在 需要 时 输入 过 滤 噪 声 的 参数 。 

(6) RRTM AA C Ari fel 

它 的 缺点 如 下 。 

(OD 当 数 据 量 增 大 时 ,要 求 较 大 的 内 存 支 持 , 且 1/O 消耗 也 很 大 。 

(2) 当空 间 聚 类 的 密度 不 均匀 、 聚 类 间距 差 相 差 很 大 时 , 限 类 质量 较 差 ( 有 些 簇 内 距 
离 较 小 ,有 些 篮 内 距离 很 大 ,但 是 Eps 是 确定 的 ,所 以 ,如 果 Eps 偏 小 ,距离 稍 大 的 点 可 能 
被 误 判 断 为 离 群 点 或 边界 点 ,如 果 Eps 偏 大 ,那么 小 距离 的 簇 内 ,可 能 会 包含 一 些 离 群 点 
或 边界 点 ,KNN 拭 法 的 & 值 的 选取 也 存在 同样 的 问题 )。 


(7 17.2 DBSCAN 算法 的 改进 


17.2.1 DPDGA 算法 


DPDGA (Data Partition DBSCAN using Genetic Algorithm. DPDGA)U 算法 采用 基 
于 遗传 算法 的 方法 确定 聚 类 中 心 。 这 种 基于 遗传 算法 的 初始 聚 类 中 心 获取 方法 采用 了 
k-means 算法 的 基本 思想 ,但 是 它 使 用 遗传 算法 而 不 是 一 般 的 迭代 来 进行 逐步 的 优化 。 
在 使 用 基于 遗传 算法 的 方法 获得 较 优 的 初始 聚 类 中 心 后 ,DPDGA 算法 根据 获得 的 初始 
聚 关 中 心 点 划分 数据 集 。 对 于 划分 得 到 的 各 个 局 部 数据 集 , 分 别 计算 每 个 局 部 数据 集 的 
参数 MinPts ,然后 对 各 个 局 部 数据 集 分 别 使 用 DBSCAN 算法 进行 聚 类 ,最 后 合并 各 局 部 
数据 集 的 聚 类 结果 。DPDGA 算法 由 于 划分 了 数据 集 , 降 低 了 对 主 存 的 要 求 。 算 法 中 提 
出 了 计算 各 局 部 数据 集 参 数 的 方法 ,对 于 分 布 不 均 义 的 效 据 集 ,由 于 各 个 局 部 米 用 不 同 的 
参数 值 ,使 得 算法 对 全 局 参数 的 依赖 性 降低 , 聚 类 质量 更 好 ” 。 


17.2.2 并行 DBSCAN 算法 


根据 DBSCAN 存在 的 问题 ,可 以 使 用 “分 而 治之 ”和 融 效 的 并 行 算法 思想 ,把 数据 划 
分 为 分 布 均匀 的 网 格 ,对 每 个 网 格 单独 处 理 , 分 配 网 格 到 多 个 处 理 机 共同 聚 类 。 这 样 一 方 
面 克 服 了 全 局 变量 Eps 的 影响 ,提高 了 和 聚 类 质量 ; 男 一 方面 提高 了 聚 类 效率 ,也 降低 了 
DBSCAN 对 主 存 的 较 高 要 求 。 
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*" 17.8 DBSCAN 算法 的 MATLAB 实践 


DBSCAN 的 Matlab 函数 实现 过 程 中 包含 3 个 子 函 数 : dbscan. m 是 核心 代码 ,完成 
聚 类 功能 ; CalDistance 用 于 计算 任意 两 点 的 距离 ,这 个 距离 可 以 是 广义 的 距离 ,代码 中 
实现 的 是 欧 氏 距离 ; Epsilon. m 是 可 选项 ,主要 用 来 确定 参数 Eps, 即 每 次 拓展 的 区 域 的 
大 小 。 下 面 展 示 一 个 利用 DBSCAN 算法 进行 聚 类 的 实例 , 聚 类 的 数据 由 两 个 不 同 均 值 的 
高 斯 分 布 产生 ,与 第 16 章 用 到 的 数据 相同 。 实 例 代 码 如 下 (demo_dbscan. m 文件 ): 


$% 产生 数据 

clear; close all 

rng default; 多 For reproducibility 
mul = [1 2]; 

sigmal = [3 0.2; 0.2 2]; 

m2 =[-2-4]; 

sigma2 = [2 0; 01]; 

X = [mvnrnd(mul, sigmal, 200); mvnrnd(mu2,sigma2,100)]; $6 两 个 高 斯 的 数据 样本 
n= size(X,1); 

& dbscan 聚 类 

label = dbscan(X, 6); 


DBSCAN 算法 的 实现 代码 如 下 (dbscan. m 文件 ): 





function class = dbscan(data, Minpts, varargin) 


名 利用 dbscan 算法 对 数据 x RK \ 
% data: m * n, m objects and n features; 
E Eps: radius; 
| 5 Minpts: values used for define core points 
\ 名 输出 : 
* cluter: cluster labels for non - noiose data points 
多 定义 参数 Eps AI MinPts 
MinPts - Minpts; 
if nargin ^» 2 
Eps = varargin{1}; 
else 
% epsilon PRA FH T 3T IE k HR] 2E Ee 
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Eps = epsilon(data, Minpts); 


end 
[n,n] = size(data); 名 得 到 数据 的 大 小 
x-[(1:m)'data]; 
[m,n] = size(x); % 重新 计算 数据 集 的 大 小 
types = zeros(1,m); s 用 于 区 分 核心 点 1, 边 界 点 0 和 噪声 点 -1 
dealed = zeros(m, 1); ss 用 于 判断 该 点 是 否 处 理 过 ,0 表示 未 处 理 过 
dis = calDistance(x(:,2:n)); 
number = 1; s 用 于 标记 类 
& 对 每 一 个 点 进 行 处 理 
for 1=1:m 
找到 未 处 理 的 点 


if dealed(i) == 0 
xTemp = x(1, :); 


D= dis(i, :); 取得 第 i 个 点 到 其 他 所 有 点 的 距离 
ind = find(D< = Eps); % 找到 半径 Eps 内 的 所 有 点 
区 分 点 的 类 型 

多 边界 点 


if length(ind) > 1 && length(ind) < MinPts+1 
types(i) = 0; 
class(1) 20; 
end 
d S i 
if length(ind) == 1 & MIEL C BJ RB S 
types(i)7-]1]; 
class(i) =- 1; 
dealed(i) = 1; 
end 
& 核心 点 (此 处 是 关键 步骤 ) 
if length(ind)» -» MinPts + 1 
types(xTemp(1,1))721; 
class(ind) = number; 
多 判断 核心 点 是 否 密 度 可 达 
while ~ isempty( ind) 
yTemp = x( ind(1), :); 
dealed(ind(1)) = 1; 
ind(1) = [T; 
D= dis(yTemp(1,1), :); $ 找到 与 ind(1) 之 间 的 距离 
ind 1 = find(D< = Eps}; 
if length(ind 1)>1 % Ak XB JE RES. 
class(ind 1) = number; 
if length(ind 1)» -MinPts*1 
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types(yTemp(1,1)) 2 1; 
else 
types(yTemp(1,1)) - 0; 
end 
for j= 1:length(ind 1) 
if dealed(ind 1(j3)) ==0 
dealed(ind 1(3))72 1; 
ind- [ind ind 1(j3)]; 
class(ind 1(j)) » number; 
end 
end 
end 
end 
number - number t 1; 
end 
end 
end 
& dec Joi Ab P A D Ad 2S HI e 2I R S a 
ind 2 = find(class == 0); 
class(ind 2) = 一 1; 
types(ind 2)7- 1; 
& 男 出 最 终 的 聚 关 图 
& 原始 类 别 图 
figure( 'Position', [20 20 600 300]); 
subplot(121); 
scatter(data(1:200,1),data(1:200,2),15, 'ro', '£illed'); 
hold on 
scatter(data(201:end, 1), data(201 : end, 2), 15, 'bo', '£illed') 
title( Ec SC BUE 2S ZR") ; 
subplot(122); 
hold on 
for i=1:m 
if class(i) »--1 
plot(data(i,1),data(i,2), '.r'); 
elseif class(i) == 1 
if types(i) == 
plot(data(i,l),data(i,2),'*b'); 
else 
plot(data(1i,1),data(i,2), '.b'); 
end 


elseif class(1i) == 2 
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if types(i) == 1 
plot(data(i,1),data(i,2),' t gq'); 
else 
plot(data(1,1),data(1i,2), '.g'); 
end 
elseif class(i) == 3 
if types(i) ==1 
plot(data(1,1),data(i,2),'*t c'); 
else 
plot(data(i,1),data(i,2), '.c'); 
end 
else 
if types(i) ==1 
plot(data(i,1),data(i,2),' t k'); 
else 
plot(data(i,1),data(i,2), '.k'); 
end 
end 
end 
hold off 
title(sprintf('DBSCAN 算法 (MinPts = &d)', Minpts)); 


E cC at uS RT REC RTL LEE LTEM LTEM M LTEM ET M LT LTEM LTEM RT M ETE MT RT TI MM 


在 上 面 的 主 程序 中 调用 了 一 个 epsilon() 子 函数 , 它 的 作用 是 计算 领域 的 半径 ,代码 
如 下 (Cepsilon. m 文件 ): 


function [Eps] = epsilon(x,k) 

sg 根据 数据 计算 DBSCAN 算法 的 邻 域 半径 

和 输入: 

% x - data matrix (m,n); m- objects, n- variables 

% k - number of objects in a neighborhood of an object 
5s Em B: 

* radius calculate by given MinPts and datase 
[n,n] » size(x); 


Eps = ((prod(max(x) - nin(x)) * k * gamma(.5 * n* 1))/(m* sqrt(pi.^n))).^(1/n); 


代码 中 首先 人 工 构造 了 一 个 训练 集 ,然后 调用 dbscanO rRZ ETT EE2S, 4 MinPts 二 6 
时 ,DBSCAN 算法 聚 类 效果 如 图 17. 4( 详 见 文 前 彩 搬 ) 所 示 。 

图 17.4(b) 中 红色 点 表示 噪声 , 蓝 色 圆 点 是 边界 点 。 蓝 色 和 绿色 分 别 代 表 两 个 类 。 
与 真实 的 距离 结果 对 比 , 可 看 出 DBSCAN 算法 的 聚 类 效果 较 好 。 
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(a) 真实 的 聚 类 结 末 (b) DBSCAN 算 法 (MinPts=6) 
图 17.4 DBSCAN(MinPts 二 6) 预 测 与 真实 结果 对 比 


当 MinPts 王 10 时 , 聚 类 效果 如 图 17. 5( 详 见 文 前 彩 插 ) 所 示 。 从 图 中 可 观测 出 ， 
DBSCAN 算法 并 没有 很 好 地 把 两 类 数据 分 开 。 





(a) 贞 实 的 聚 类 结果 (b) DBSCAN 算 法 (MinPts=10) 
17.5 DBSCAN(MinPts 二 10) 预 测 与 真实 结果 对 比 


当 MinPts—2 时 , 聚 类 效果 如 网 17.6( 详 见 文 前 彩 插 ) 所 示 。 从 图 中 可 观测 出 ,此 时 
出 现 了 4 个 类 别 ,与 实际 不 符 。 可 见 ,DBSCAN 算法 对 于 参数 的 选择 很 敏感 。 
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(a) 真实 的 聚 类 结果 (b) DBSCAN 算 法 (MinPts=2) 


17.6 DBSCAN(MinPts 一 2) 预 测 与 真实 绪 果 对 比 
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机 器 学 习 按照 是 否 有 导师 信号 分 为 监督 学 习 、 无 监督 学 习 、 半 监督 学 习 , 这 是 站 在 导 
师 的 角度 。 如 果 换 一 个 角度 考虑 ,站 在 学 习 者 的 角度 ,无 论 是 否 有 导师 ,学 习 者 总 是 通过 
某 种 形式 的 反馈 来 不 断 地 纠正 目 己 的 错误 ,学习 到 某 项 技能 或 完成 决策 。 这 种 反馈 大 体 
可 以 分 为 以 下 3 类 。 

(1) 回报 : 日 己 摸 索 着 做 ,然后 得 到 环境 的 一 个 稀 玖 的 反馈, 表征 是 否 达 到 期 望 的 行 
JI s A WF AR KS FAN A o 

(2) 演示 : 看 别人 做 ,专家 来 演示 正确 的 行为 ,学 习 者 损 测 专家 的 行为 并 重 现 。 这 个 
过 程 不 仅仅 是 人 向 单 的 重复 ,而 是 和 学习 者 理解 专家 的 融 上 略 。 例 如 机 各 人 模仿 人 的 动作 ,这 个 
过 程 由 于 机 器 人 和 人 的 结构 和 感知 不 同 , 所 以 不 能 简单 地 执行 示 教 者 的 策略 ,而 需要 一 个 
陋 射 , 这 个 映射 体现 了 理解 的 过 程 。 

(3) 监督 回报 : 别人 告诉 你 怎么 做 ,下 接 获 得 好 的 行为 属性 或 准则 ,如 对 于 无 人 癌 驶 
系统 中 的 车 道 线 .月 身 和 前 车 的 距离 。 直 接 得 到 策略 , 照 做 就 行 。 

例如 ,对 于 一 个 婴儿 来 说 ,他 有 不 同 的 学 习 方 式 。 如 图 18.1 所 示 ,他 可 以 从 观看 动画 
厂 中 学 习 , 这 就 是 演示 模仿 学 习 ; 也 可 以 通过 父母 的 教导 获得 知识 和 技能 ,父母 会 给 出 明 
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(a) 模仿 (b) 教导 (c) 探索 
图 18.1 反馈 的 不 同形 式 
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WA EI] AI fn] ASI E HU di Am XOT a Erg 2J (Lo fc fn] A EL BERI s 最 后 一 种 就 是 
H CARA IE JR UJL GB TE fp e P] BUS SEMI ,甚至 唉 一 些 东 西 来 获得 对 外 界 事物 属性 的 认 
知 , 通 币 它 只 能 得 到 一 个 稳 巩 的 反馈 , 称 为 回报 。 这 种 方式 最 费时 ,但 是 需要 的 和 匈 验 也 最 
少 。 这 样 一 种 通过 称 牙 回报 数据 进行 学 习 的 方式 称 为 蝇 化 学 习 。 本 童 和 第 19 草 的 内 容 
将 讲述 一 些 经 典 的 强化 学 习 算 法 。 目 的 是 让 庶 痢 了 解 蝇 化 学 习 这 个 领域 ,同时 和 苔 担 一 些 
基本 的 算法 。 对 于 想 进一步 探索 ,如 值 呆 数 近似 、 策 略 搜 索 、 策 略 梯 度 及 涤 度 蝇 化 学 习 等 
的 读者 ,可 以 阅读 书 中 的 参考 文献 ,或 者 搜集 网 络 资料 学 习 - 。 


0718.1 基本 概念 


18.1.1 量化 学 习 的 基本 模型 


所 谓 强 化 和 学习 ,是 指针 能 体 通 过 不 断 地 与 环境 交互 ,利用 环境 反馈 的 奖励 信号 (强化 
号 ) ,学 习 到 一 个 从 环境 状态 到 行为 的 映射 关系 (和 略 的 概念 ) 的 过 程 。 基 于 这 个 映射 
XRHOER DLE S. 强化 学 习 不 同 于 连接 主义 学 习 中 的 监督 学 习 , 主 要 
表现 在 教师 信和 号 RO SD YE -种 评 
价 ( 通 稼 为 标量 信号 ) ,而 不 是 告诉 强化 学 习 系 统 (Reinforcement Learning pi 
如 何 去 产 生 正 确 的 动作 。 由 于 外 部 环境 提供 的 信息 PREPA a 进行 学 
习 。 通 过 这 种 方式 ,RLS 在 行动 -评价 的 环境 中 获 sinl 改 Spip dn. 整 
个 强化 学 习 的 框架 如 图 18. 2 所 示 。 





图 18.2 强化 学 习 框 架 


18.1.2 马尔 可 夫 决 策 过 程 


为 了 对 强化 学 习 的 这 种 机 制 进行 描 述 , 需 要 借助 一 定 的 数学 工具 ,这 就 是 马尔 可 夫 决 
w il fE (Markov Decision Process，MDP) 。 一 个 MDP 由 五 元 组 构成 (S$,A,{P.,,},yY,R)， 

OD S 表示 状态 集合 (States)。 例 如 ,对 于 无 人 机 来 说 ,无 人 机 当前 的 位 置 及 速度 值 
组 成 的 状态 集 。 
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(2) A 表示 一 组 动作 (Actions)。 例 如 ,使 用 控制 杆 损 纵 的 下 升 机 改行 方 问 ,让 其 回 
前 、 回 后 等 。 

(3) P,, 是 状态 转移 概率 。S 中 的 一 个 状态 到 另 一 个 状态 的 转变 ,需要 4 来 参与 。 了 .。 
表示 的 是 在 当前 sES 状态 下 ,经 过 a€4 作用 后 ,转移 到 其 他 状态 的 概率 分 布 (当前 状态 
执行 a 后 可 能 跳 转 到 很 多 状态 )。 通 第 P., 由 对 象 的 模型 决定 ,知人 站 了 被 控 对 象 的 模型 ,也 
就 得 到 了 状 信 转移 的 分 布 。 一 般 情 况 下 根据 P,, 是 否 已 知 , 把 强化 学 习 方 法 分 为 Model 
Based 和 Model Free 两 大 类 。 

(4) yE10,1) 是 折扣 系数 (Discount Factor)。 计 算 累 积 回 报 的 参数 ,反映 了 未 来 时 
刻 回 报 对 于 当前 时 刻 影响 的 大 小 。7Y 越 大 表示 影 啊 越 大 ,决策 者 更 注重 长 期 利益 。 反 之 ， 
y 越 小 表示 决策 者 更 注重 当前 利益 。 

(5) 回报 函数 RC sa s ) 表 示 在 状态 s 执行 动作 a 转移 到 下 一 个 状态 获得 的 立即 
回报 。 


18.1.3 策略 


已 知 智能 体 处 于 某 个 状态 s 时 ,要 解决 的 问题 是 如 何 决定 下 一 步 的 动作 a, 然后 转换 
到 为 一 个 状态 s 。 这 个 产生 动作 的 依据 就 称 为 策略 x(Policy) ,每 一 个 策略 其 实 就 是 一 个 
状态 到 动作 的 映 映 misma. "WELT e T DOR TE IHE x 也 束 给 定 了 a 二 x(s), 也 就 是 
说 ,知道 了 策略 x 就 知道 了 任何 一 个 状态 下 应 该 怎么 行动 。* 


18.1.4 值 函 数 


为 了 区 分 不 同 zc 的 好 坏 ,以 及 在 某 个 状态 下 ,执行 一 个 策略 x 后 ,出 现 的 结果 的 好 坏 ， 
需要 年 义 一 个 指标 图 数 , 这 个 指标 就 是 值 图 数 (Value Function), 也 称 折算 累积 回报 
(Discounted Cumulative Reward) ,定义 为 : 

V'(s) = ELRCs,,a,2 HYR Gisa DHIR Ca) H HM | $9 = s, 

式 中 表示 每 一 步 的 回报 。 可 以 看 到 ,在 当前 状态 s F,R WA Je E eR CE [nd 
报 加 权 和 的 期 望 。 这 个 其 实 很 容易 理解 ,给 定 x 也 就 给 定 了 一 条 未 来 的 行动 方案 ,这 个 行 
动 方案 会 经 过 一 个 个 的 状态 ,而 到 达 每 个 状态 部 会 有 一 定 回 报 值 ,距离 越 近 的 两 个 状态 关 
联 越 大 ,权重 越 高 。 这 和 下 象棋 类 似 ,在 当前 棋局 s。 下 ,不同 的 走 子 方案 是 x, 评价 每 个 方 
案 依 乔 对 未 来 局 势 (RGs) ,RGs),…) 的 判断 。 一 般 情 况 下 ,鲁能 体会 在 头脑 中 多 考 夸 几 
步 ,但 是 会 更 看 重 下 一 步 的 局 努 。 看重 下 一 步 的 思维 方式 反映 在 数学 上 就 是 给 它 一 个 更 
大 的 权重 。 实 际 上 值 函 数 刻 画 了 当前 策略 下 某 个 状态 的 好 坏 。 





第 18 草 ”策略 迭代 和 值 迭 代 


所 有 的 强化 学 习 算 法 都 在 解决 一 个 问题 , 那 就 是 如 何 求 得 一 个 最 优 策 略 4, 以 最 大 化 
期 望 回 报 。 


18.1.5 贝尔 曼 方 程 


Hii fr 2H TERRE X. V* GO MERS s POKER zc 获得 的 案 积 期 望 回 报 。 为 
了 简化 书写 HR; 表示 第 i 步 的 回报 ,* 表示 下 一 步 状态 。 并 且 把 值 函数 的 表达 式 展开 ， 
则 有 : 
| 
| 
= E.[RG' | sa) + YG | ss = som] 
给 定 策略 x 和 初始 状态 s , 则 动作 a x GO ,下 个 时 刻 将 以 概率 p(s'|1s,a) 转 移 到 状态 
s ,那么 上 式 的 期 望 可 以 拆 开 , 重 写 为 ， 
V"(s) = > Py | sa GODLRG' | s,z€G20 FIV G^) | so = sx] (18. 1) 
JES 


A Ae E R E x R S A RA. AEM H, th, n] PL E X. zi fE (B eA XX CAction Value 
Function)Q Jj. 
LE Lua c e| XR, Ekse" gc «| 


同样 地 ,把 动作 值 函数 的 定义 式 展 开 , 得 到 如 下 的 表达 式 : 
= >PO | SLR | s.a) 4- YV* Cs) ] (18.2) 
SES 


XX O18. 1) 和 式 (18.2) 中 的 表达 式 揭示 了 当前 状态 的 值 函 数 和 下 一 个 状态 值 负 数 的 关 
系 。 在 动态 规划 中 , 称 它 们 为 贝尔 曼 方 程 。 如 果 用 x* 表示 最 优 宁 上 略 , 对 应 的 状态 值 疯 数 
和 行为 值 次 数 分 别 表示 为 V"(s) 和 Q*(s,a)。 那 么 此 时 的 状态 值 了 次数 和 行为 值 钠 数 满足 
如 下 的 方程 : 

V* (s) — max,E,[ RGs | 
Q* (s,a) = E,LR(G' | ssa) -- Y max;Q* (ssa) | s = ssa — a] 

上 面 两 个 方程 称 为 贝尔 曼 最 优 方 程 。 

由 尔 曼 方程 的 迭代 过 程 是 一 个 压 争 映射 ,根据 不 巴 拿 赫 动 点 定理 , 非 完 备 度 量 空间 上 
的 每 一 个 压缩 映射 必然 存在 这 样 一 个 不 动 点 。 这 也 是 为 什么 我 们 可 以 用 和 迭代 方法 求解 值 
函数 的 理论 基础 。 在 计算 机 科学 中 ,经 常会 使 用 迭代 算法 。 这 个 时 候 为 了 保证 收敛 ,可 以 
考虑 证 明 设计 的 算法 的 迭代 过 程 是 一 个 压缩 映射 。 对 于 感 兴趣 的 读者 可 以 研究 相关 
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(D 18.2 策略 迭代 算法 原理 


有 了 上 面 的 概念 ,就 可 以 来 研究 一 些 具体 的 强化 学 习 算 法 了 。 本 节 和 18. 3 节 分 别 介 
绍 两 个 很 相似 的 算法 ,它们 都 适用 于 处 理 有 限 离 散 状 态 的 问题 。 并 且 需 要 知道 模型 信息 ， 
也 就 是 状态 转移 概率 和 回报 图 数 。 本 节 介 绍 策略 迭代 算法 。 

所 谓 策 略 迭 代 , 就 是 有 一 个 策略 的 更 新 过 程 。 它 的 大 概 思 想 是 : 首先 给 定 一 个 任意 
策略 ,迭代 贝尔 曼 方程 能 够 求 得 当前 策略 下 的 值 消 数 。 然 后 根据 值 函 数 更 新 策略 ,如 
e-greedy 策略 。e-greedy 策略 是 指 以 es 的 概率 选择 能 够 获得 最 大 回报 的 行为 ,1 一 s 的 概 
率 随 机 选择 动作 。 调 整 后 的 束 略 叉 可 以 计算 值 次 数 。 这 样 循环 往复 ,和 卫 到 宁 略 收 钱 。 理 
论证 明 这 种 迭代 最 终 会 收敛 到 一 个 最 优 的 值 郴 数 V”(s) 和 策略 zt 。 整 个 最 优 策略 的 求 
解 过 程 如 图 18. 3 所 示 ,算法 分 两 个 大 的 过 程 。 





z = e-greedy( F) 








图 18.3 GPI 收敛 示意 图 


(OD 宋 略 的 评 佑 ,就 是 值 冰 数 的 计算 。 

(20 策略 提升 ,基于 上 一 步 的 值 图 数 估 计 一 个 更 好 的 案 略 。 

策略 迭代 算法 的 具体 实施 步骤 如 下 。 

(1) 初始 化 所 有 状态 的 值 函 数 和 一 个 任意 的 初始 策略 ro 。 

(2) 通过 贝尔 曼 方 程 , 求 出 当前 全 略 下 的 值 轴 数 ,包含 以 下 于 步骤 。 

D 设 定 一 个 国 值 KR B Jes M UK 3s FEL ERE ACIE] 28 ER. 。 

Q 48 E—456 Bg 3k fe R CIEL PR CRI ED PATE. T E 0E RETIA UG. T y SOS. 
VG) = > 5G'R | sxGDLR 4-3VG)] 


© HH 34 Bt EAT IAS B (8E ER URL E — $6 83 25 (8. 28 (BL T 2b JE OD rh i «E S) Bg 
值 ,停止 迭代 , 转 到 步骤 (3) ,否则 重复 执行 步骤 @，; 

(3) 更 新 宋 略 。 利 用 步骤 (2) 计 算 的 值 图 数 更 新 荣 略 。 更 新 的 原则 是 在 上 选择 4a， 
然后 能 够 使 得 V(s) 最 大 。 

(4) 比较 更 新 后 的 策略 和 更 新 前 的 策略 ,如 果 是 一 样 的 ,说 明和 策略 已 经 稳定 了 ( 收 
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S30 , 则 停止 迭代 ,算法 结束 。 如 果 不 一 样 , 重 复 步 又 (2) 和 步骤 (3)。 

上 面 步骤 (2) 是 一 个 迭代 的 过 程 。 也 就 是 说 不 断 地 根据 式 (18. 1) 更 新 所 有 状态 的 
Y 值 。 直 到 这 些 值 前 后 两 次 变化 小 于 一 个 国 值 , 说 明 求 得 了 当前 策略 的 最 优 值 国 数 。 然 
后 骨 更 新 策略 。 观 察 式 (18. 1) ,其 中 P、R、 Pan e mn -个 线性 方程 组 。 利 
用 任何 的 线性 方程 组 求解 工具 ,都 可 以 解析 计算 V。 当 然 通过 迭代 的 方法 也 会 收敛 到 相 
同 的 值 。 


”18.3” 值 迭代 算法 原理 


值 迭 代 算 法 和 开 略 迭代 有 两 个 大 不 相同 的 地 方 。 一 是 值 迭 代 没 肛 上 略 更 新 的 过 程 ; 

二 是 值 站 数 的 更 新 不 再 是 对 所 有 可 能 的 动作 求 一 个 期 望 ,而 是 比较 各 个 不 同 动作 在 当前 
状态 下 的 期 望 回 报 , 然 后 选择 期 望 回 报 最 大 的 动作 更 新 V。 也 就 是 

V(s) = max 2 ,pG'.R R | s,a)[LR+ YV G7) ] (18. 3) 


值 迭代 算法 的 步骤 可 以 归纳 如 下 。 

(OD 8) 5 fb E ER CV, 

(2) 对 于 每 一 个 状态 s ,根据 式 (18. 30 HUBS TB. KR. 

(3) 比较 步骤 (2) 中 前 后 两 次 的 更 新 , 差 值 小 于 某 一 个 值 时 , 转 步 了 枝 (4) ,否则 转 步 
V2), 

(4) TR S ABL ER IC 7^ ^E e UG a m G2 —argmax,V' (s). 

通过 上 面 的 讲述 可 以 知道 , 宽 略 迭代 和 值 迭 代 算 法 部 依赖 于 值 尔 数 的 现 新 。 这 个 更 
新 过 程 会 履 盖 之 前 的 值 交 数 。 就 好 像 备 份 一 样 , 问 题 就 是 该 如 何 备份 ,用 怎样 的 计算 方式 
KEPAK. EM Y FHK A B Backup Diagram) 来 表示 不 同 算法 的 备份 形 
式 。 对 比 案 略 迭 代 和 值 迭 代 的 备份 如 图 18. 4 所 示 。 


(V7) | D) 





oo oo oo oo Oo: 
ESSAIS (0) fü 
图 18.4” 值 迁 代 和 策略 迭代 的 迭代 策略 图 


图 18.4(a) 对 应 于 值 迭 代 的 更 新 ,可 以 看 出 它 是 在 3 个 文 路 中 选择 一 个 最 大 的 ， 
图 18. 4(b) 对 应 于 案 略 迭代 的 备份 图 。 如 果 案 上 略 是 一 个 确定 性 案 略 , 则 只 选择 一 个 分 冯 ， 
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对 该 分 支 下 的 下 一 个 所 有 可 能 的 状态 求 期 望 。 本 章 中 上 默认 是 确定 性 策略 。 如 果 策略 是 一 
个 随机 策略 , 则 对 当前 所 有 可 能 的 行为 和 下 一 时 刻 所 有 可 能 的 状态 求 期 望 。 总 之 迭代 是 
-个 最 大 化 操作 ,而 策略 迭代 是 求 期 望 。 

另外 , 值 送 代 就 只 能 通过 迭代 的 方法 晕 近 最 优 。 因 为 在 式 (18.3) 中 ,多 了 一 个 最 大 化 
操作 ,这 使 得 式 (18. 3) 变 成 了 非 线 性 方程 。 目 前 尚 没有 这 种 非 线性 方程 的 解析 解法 。 相 
比 策略 迭代 ,这 也 是 另 一 个 不 同 之 处 ， 


7 18.4 策略 迭代 和 值 和 迭代 算法 的 MATLAB 实践 


本 廿 将 举例 说 明 如 何 用 本 章 介 绍 的 算法 解决 实际 问题 。 为 了 便于 旋 者 理解 算法 , 同 
时 了 解 如 何 使 用 算法 ,下 面 以 出 租车 问题 为 例 进行 分 析 , 然 后 讲解 实现 代 但 。 

假设 一 个 老板 在 某 城市 有 两 个 租车 公司 A 和 B。 每 天 都 会 有 一 些 顾客 分 别 到 这 两 
个 公司 租车 。 如 来 顾客 去 了 当中 的 一 个 公司 ,并 且 公 司 有 车 ,那么 出 租 成 功 ,老板 获得 10 
美元 的 收入 。 相 有 反 ,如 末 顾 客 去 的 公司 没 车 ,就 失去 了 这 笔 交 易 。 租 出 去 的 车 再 归还 之 
后 ,又 可 以 重新 出 租 。 老 板 面临 的 问题 是 如 何 规划 两 个 公司 的 车 辆 数 从 而 使 收益 最 大 。 
其 中 ,在 两 个 公司 地 点 之 加 调度 一 辆 车 的 人 花费 是 2 美元。 假设 每 个 公司 车 辆 的 需求 数 和 


归还 的 数量 都 服从 泊 松 分 布 ,也 就 是 说 需求 量 为 a 的 概率 是 咎 e*, 平 均 需 求 量 是 4。 候 


RAR A 和 B 车 辆 的 平均 需求 量 分 别 是 3 和 4, 相 应 地 平均 每 天 归还 的 车 辆 数 是 3 2. 
为 了 简化 问题 ,假设 每 个 地 方 的 车 辆 数 不 多 于 20 辆 ,并 且 每 天 调度 的 车 辆 数 不 多 于 5 辆 。 
取 系 数 7 二 0.9。 求 : 在 不 同 的 情况 下 ,应 该 如 何 调度 车 辆 使 得 收益 最 大 化 ? 

分 析 一 下 这 个 问题 ,可 以 构造 为 一 个 马尔 可 夫 决 策 过 程 (Markov Decision Process. 
MDP) 问 题 。 状 态 是 两 个 公司 一 天 结束 时 的 车 辆 数 , 决 策 的 行为 是 两 个 公司 之 间 调 度 的 
车 辆 数 。 回 报 值 可 以 设置 为 收益 值 。 现 在 用 宋 略 迭代 的 方法 求解 一 个 最 佳 的 条 上 略 。 

为 了 编程 解决 这 个 问题 ,通过 分 析 可 以 将 问题 分 解 成 几 个 子 问题 ,分 别 是 值 消 数 计 
TE 、 宁 略 提升 .模型 参数 计算 和 贝尔 曼 更 新 方程 计算 。 模 型 PR 是 问题 的 基础 ,代表 模型 
的 回报 函数 和 转移 概 计 ,在 计算 其 他 函数 时 需要 这 两 个 信息 。 而 贝尔 曼 更 新 方程 是 人 图 
数 计算 和 策略 提升 的 重要 环 闻 。 因 此 租车 问题 被 分 解 成 4 个 问题 ,通过 4 个子 图 数 实 现 。 
然后 按照 策略 迭代 的 思想 串 在 一 起 ,解决 整个 问题 。 这 些 函 数 之 则 的 关系 如 图 18. 5 所 
示 , 云 未 中 是 每 个 问题 的 实现 图 数 名 。 

在 代 但 中 将 逐步 讲解 每 个 了 于 图 数 的 功能 和 实现 形式 。 读 者 在 运行 的 时 候 应 该 把 每 个 
拷 图 数 放 在 单独 的 脚本 中 ,然后 将 每 个 脚本 都 放 在 同一 文件 夹 下 ,之 后 运行 car. prob. m 
脚本 。 下 面 首 先 介绍 整个 代码 的 主体 程序 (car_prob. m 文件 )。 
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Jer policy ' 


t evaluation ~ 


值 函 数 计算 










Tjer rhs state - 


value bellman 





贝尔 最 更 新 
方程 计算 
图 18.5 租车 问题 实现 过 程 的 分 解 图 


SS 策略 迭代 方法 求解 租 相 问题 
clo; clear; 
close all; 


外 参数 设置 


max n cars = 20; * 最 大 租车 数 

gamma = 0. 9; 名 折扣 系数 

transfer car= 5; s 每 天 最 大 的 转移 车 辆 数 
lambda A return= 3; A 公司 平均 每 天 归还 的 车 辆 数 
lambda A rental = 3; % A 公司 每 天 车 辆 的 平均 需求 量 


lambda B return= 2; 
lambda B rental = 4; 
sg% 计算 回报 和 转移 概率 


当日 公司 平均 每 天 归还 的 车 辆 数 
ssB 公 司 每 天 车 辆 的 平均 需求 量 


[ Ra, Pa] = cmpt P and R(lambda A rental,lambda A return,max n cars,transfer car); 
[Rb,Pb] = compt P and R(lambda B rental,lambda B return,max n cars,transfer car); 


* W 45 46 TH PR ZI 


s HAR v Rr 


pol pi= zeros(max n cars + l,max n cars t 1); 


policyStable- 0; iterNum- 0; 


* JF A RE GS FC, TRUE SUBE ES ER , He Ibi fT 


while( — policyStable ) 
% plot the current policy: 


figure('Position', [200 100 + 200 * iterNum 580 200]); s "3k (exo MR E n oo 


subplot(1,2,1) 

imagesc( 0:max n cars, O0:max n cars, pol pi ); colorbar; xlabel( 'num at B'); ylabel( 'num at 
A'); 

title( [ ' 当 前 策略 iter = ', num2str(iterNum)] ); axis xy; drawnow; 

set(gca, 'FontSize', 10); 

* f iT 24 BU SE P ES TA ces EL PRX 

V= jcr policy evaluation(V, pol pi, gamma, Ra, Pa, Rb, Pb, transfer car); 

subplot(122) 

imagesc( 0:max n cars, 0:max n cars, V ); colorbar; 

xlabel( 'num at B'); ylabel( 'num at A'); 

title( [ ' 当 前 状态 值 图 数 iter = ', num2str(iterNum)] ); axis xy; drawnow; 

set(gca, 'FontSize', 10); 

s JR] FH scat BJ (E PA B E FH TR Met 

[pol pi, policyStable] = jcr policy improvement(pol pi, V, gamma, Ra, Pa, Rb, Pb, transfer car); 

s F—UGSTV 


iterNum = iterNum t 1; 


在 这 段 程序 中 ,首先 定义 了 问题 的 一 些 参数 。 通 过 cmpt_P_and_R 函数 得 到 了 每 个 
状态 的 回报 值 和 状态 转移 概率 。 在 开 略 迭代 的 循环 内 部 ,调用 了 jcr_policy_evaluation 来 
计算 当前 案 略 下 的 全 图 数 , 然 后 又 调用 了 jer policy improvement PAUE gr 4s We. A S] S 
略 稳 定 。 下 面 分 别 介 绍 这 些 子 数 的 功能 和 实现 。 首 先是 cmpt P and R 函数 Ccmpt_ 
P and R. m X £P», 


end 








function [R,P] » cmpt P and R 


(lambdaRequests,lambdaReturns,max n cars,max num cars can transfer) 


s 用 于 计算 回报 和 和 苇 移 概率 


if( nargin-- 0 ) 
lambdaRequests = 4; 


max n cars = 20; 
max n cars can transfer = 5; 

end 

PLOT FIGS = 0; % 是否 画图 \ 

s 每 个 公司 当天 早上 可 能 的 车 辆 数目 

nCM = 0: (max_n_cars + max num cars can transfer); 

返回 平均 回报 

R= zeros(1, length(nCM)); 
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B & 每 个 地 方 的 收益 和 当地 的 车 辆 数 有 关 , 而 每 个 地 方 早上 的 车 辆 数 不 超 过 25 88,26 个 状态 ,对 
| * 于 每 个 状态 有 一 个 期 望 回 报 
for n= nCM, 
tmp = 0.0; 
% 当地 车 辆 的 需求 数 实际 上 可 以 是 任何 目 然 数 ,但 是 当 需 求 偏离 平均 需求 太 大 时 ,概率 基 
本 为 0, 因 此 这 里 取 到 30 
| for nreq = 0:(10 * lambdaRequests), 
| for nret = 0:(10 * lambdaReturns), %<-— a value where the probability of returns is 
very small. 
$ 计算 当地 每 天 可 以 租 出 去 车 辆 的 概率 
tmp = tmp +t 10 * min(n + nret, nreq) * poisspdf( nreq, lambdaRequests ) * poisspdf( nret, 
lambdaReturns ); | 
end 
end 
R(n + 1) = tmp; 
end 
if( PLOT FIGS ) 
figure; plot( nCM, R, 'x- '); grid on; axis tight; 
xlabel(''); ylabel(''); drawnow; 
end 
， sp 表 示 转移 概率 
| P= zeros(length(nCM),max n cars + 1); 
for nreq = 0:(10 * lambdaRequests), 
reqP = poisspdf( nreq, lambdaRequests ); 
| x 所 有 归还 车 辆 的 可 能 情况 : 
? for nret = 0:(10 * lambdaReturns), 
retP = poisspdf( nret, lambdaReturns ); 
| $$ 每 日 早晨 可 能 出 现 车 辆 数 的 情况 
for n= nCM, 
| sat requests = min(n, nreq); 
new n= max( 0, min(max n cars,n t nret- sat requests) ); 
P(nt1,new nt 1)- P(nt 1,new n * 1) + reqP * retP; 
end 
| end 
end 
if( PLOT FIGS ) 
figure; imagesc( 0:max n cars, nCM, P ); colorbar; 
xlabel('num at the end of the day'); ylabel('num in morning'); axis xy; drawnow; 


end 
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这 段 程 序 中 ,通过 舍 计 每 天 丰 辆 的 需求 数 ,考虑 每 天 早上 初始 的 车辆 效 和 当天 归还 的 
车 辆 数 计 算 回 报 值 。 巾 于 每 个 地 方 每 天 早上 拥有 车 辆 的 数目 为 0 一 20, 加 上 最 大 的 转移 
车 辆 数目 5, 因 此 总 共 可 能 出 现 的 状态 有 26 个 ,回报 R 是 一 个 26X1 WER, P 表示 状 
x Fe Ee kB PE ,对 于 本 问题 来 说 就 是 早上 丰 辆 数 夸 移 到 上 晚上 可 能 出 现 的 情况 ,已 知 早上 有 
26 种 情况 ， „n 20, 所 以 有 0 一 20 $ 21 种 情况 ,相应 地 返回 下 是 一 个 
26X21 的 矩阵。 下 面 介 绍 jcr policy evaluation A Ger policy. evaluation. m), 





function [V] = jcr policy evaluation(V,pol pi, gamma, Ra, Pa, Rb, Pb,max num cars can transfer) 
if( nargin < 3 ) gamma = 0.9; end 
s 每 个 地 方 的 最 大 车 辆 数 
max n cars= size(V,1) — 1; 
名 所 有 的 状态 , 拉 伸 成 一 维 的 情况 
nStates = (max n cars t 1)^2; 
名 收敛 参数 设 定 ,主要 是 迭代 误差 和 和 迭代 次 数 
MAX N ITERS = 100; iterCnt = 0; 
CONV TOL-1e-606; delta=+ inf; tm- NaN; 
fprintf( beginning policy evaluation ... Mn"); 
$ TIL AR: PA C3 TEL BI DOCET EA F Dd [EL EL ARRA R A XB xb EL BR , DU] — Eros f 
while( (delta > CONV TOL) &&(iterCnt <= MAX N ITERS) ) 
delta = 0; 
& 计算 每 一 个 状态 s Nin {S} 单 步 的 更 新 值 
for si= 1:nStates, 
$ ind2sub 图 数 将 一 维 的 索引 值 转化 为 二 维 的 ,并 返回 对 应 的 二 维 索 引 下 标 , 这 里 就 是 返回 
% a.b 的 车 辆 数 
[nal,nbl] = ind2sub( [ max n cars + 1, max n cars+1 ], si); 
na-nal-1; nb-nbi-1; 名 (从 0 开始 ) 
更 新 前 的 值 
v= V(nal,nb1); 
根据 当前 策略 和 状态 确定 转移 的 车 辆 数 ( 即 行为 ) 
ntrans = pol pi(nal,nbl); 
: 和 根据 贝尔 曼 方 程 计算 当前 的 更 新 人 ,关键 的 一 步 
V(nal,nbl) = jcr rhs state value bellman 
(na, nb, ntrans, V, gamma, Ra, Pa, Rb, Pb, max num cars can transfer); 
delta = max( [ delta, abs( v- V(nal,nb1) ) ] ); 
end % end state loop 
iterCnt = iterCnt + 1; 
打印 当前 的 step 和 相应 的 误差 delta 
: if( 1 && mod( iterCnt,1) == 0 ) 
fprintf( 'iterCnt- % 5d; delta- $% 15.8f\n', iterCnt, delta ); 
end 
end 


fprintf('ended policy evaluation ... \n'); 
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在 策略 迭代 中 ,已 知 一 个 初始 策略 ,首先 要 做 的 就 是 计算 当前 策略 下 的 值 函 数 。jcr_ 
policy. evaluation 图 数 就 实现 这 个 功能 。 在 这 个 困 数 的 循环 司 中 ,不 断 地 迭代 得 到 的 
更 新 值 ,下 到 前 后 两 次 V. 的 变化 小 于 一 个 国 值 ,或 者 是 超出 了 最 大 迭 代 次 数 时 ,返回 当前 
V 的 值 。 在 更 新 V 的 过 程 中 ,使 用 了 下 面 的 计算 公式 : 

VG) = 9 pls’ ,Rs,r(G))[R 十 7YVCs )] 


3 ， 民 
这 个 计算 在 代码 通过 jcr_rhs_state_value_bellman 图 数 实 现 。 该 图 数 的 代码 如 下 
(jcr rhs state value bellman. m X £F), 


function [v tmp] = jcr rhs state value bellman 
(na, nb, ntrans, V, gamma, Ra, Pa, Rb, Pb, max num cars can transfer) 
max n cars = size(V,1) —- 1; 
* restrict this action: 
ntrans = max( - nb, min(ntrans,na)); 
ntrans = max( - max num cars can transfer,min( + max num cars can transfer,ntrans)); 
s 转移 费用 
v tmp- —2 * abs(ntrans); 
名 早上 执行 策略 后 出 现 的 状态 
na morn = na — ntrans; 
nb morn = nb + ntrans; 
for nna = 0:max n cars, 
for nnb = 0:max n cars, 
pa = Pa(na morn* 1,nna* 1); 
pb = Pb(nb morn + 1,nnb * 1); 
& 贝尔 曼 方 程 
v tmp- v_tmp + pa * pb* ( Ra(na morn + 1) * Rb(nb morn + 1) + gamma * V(nna + 1,nnb * 1) ); 


end 





end 


经 过 策略 评估 之 后 ,最 后 一 步 球 是 案 上 略 提 升 。 在 car prob 中 通过 jer policy - 
improvement 实现 。 代 码 如 下 (jcr_policy_improvement. m 文件 )。 


function [pol pi,policyStable] = jcr policy improvement 
(pol pi, V, gamma, Ra, Pa, Rb, Pb, max num cars can transfer) 
if( nargin < 3 ) gamma = 0.9; end 

$ fe dr 

max n cars = size(V,1) — 1; 

% 总 共 的 状态 数 , 包 括 0 的 情况 

nStates = (max n cars + 1)^2; 


* assume the policy is stable (until we learn otherwise below): 
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policyStable-2 1; tm = NaN; 
% 对 于 S 中 的 每 个 状态 ,循环 
fprintf(' 开 始 策略 提升 ...\n'); 
for si= l:nStates, 
* 得 到 每 个 场所 的 丰 辆 数 
[nal,nbl| = ind2sub( [ max n cars + 1, max n cars+1 ], si); 
na-nal-1; nb= nbl- 1; % (zeros based) 
& 原始 的 策略 
b= pol_pi(nal,nbl) ; 
s 当前 的 行为 空间 , 受 限于 当地 的 车 辆 数 和 最 大 的 可 移动 的 车 辆 数 
posA = min([na,max num cars can transfer]); 
posB = min([nb,max num cars can transfer]); 
% posActionsInState 表示 从 A 转移 到 B 的 所 有 可 能 的 情况 ,也 就 是 行为 空间 
posActionsInState = [ - posB:posA ]; npa = length(posActionsInState); 
Q=- Inf * ones(1,npa); % ÍT 23 [EL ER EC 
tic; 
for ti- l:npa, 
ntrans = posActionsInState(ti); 
& 计算 所 有 行为 的 期 望 回报 
Q(ti) = jcr rhs state value bellman 
(na, nb, ntrans, V, gamma, Ra, Pa, Rb, Pb, max num cars can transfer); 


end 5 end ntrans 


tm = toc; 

% 更 新 策略 

[ dum, imax] = max( Q ); * 得 到 最 佳 策 略 的 案 引 和 对 应 的 Q 值 

maxPosAct = posActionsInState( imax); $ 最 佳 行为 

if( maxPosAct —- b ) s 检查 原始 策略 是 否 最 优 … 
policyStable = 0; 
pol pi(nal,nbl) = maxPosAct; 多 < 一 时 新 策略 

end 


end % end state loop 
fprintf('25 IR SRWE DET... Nn"); 





在 这 段 代码 中 ,对 于 每 个 状态 ,计算 所 有 可 能 的 行为 。 然 后 通过 计算 每 个 状态 的 V 
值 ,选择 最 佳 的 行为 。 最 后 利用 这 个 最 佳 行为 更 新 当前 的 策略 。 

至 此 ,介绍 了 整个 策略 迭代 算法 的 所 有 实现 过 程 和 细节 。 为 了 观测 算法 是 否 有 效 , 画 
出 每 次 迭代 时 的 策略 和 对 应 的 值 函数 ,如 图 18. 6( 详 见 文 前 彩 插 ) 所 示 。 
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图 18. 6 中 用 颜色 值 来 代表 策略 和 值 图 数 的 值 。 左 边 显 示 的 是 策略 的 色 阶 图 ,右边 是 
对 应 左边 策略 进行 评估 后 的 值 函 数值 。 图 中 的 A 和 B 地 的 车 辆 数 构成 了 整个 状态 空间 。 
因为 每 个 地 方 最 多 车 辆 数 不 超 过 20 ,所 以 总 共有 21X21=44 个 状态 。 要 解决 的 问题 是 
在 每 个 状态 下 应 该 转移 多 少 辆 车 从 A 地 到 也 地 (例如 . 38 
到 一 个 状态 是 : 当前 A 地 有 10 辆 车 ,B 地 有 8 辆 车 ,应 该 
转移 多 少 辆 车 为 最 大 化 收益 )。 在 策略 图 中 用 颜色 来 代表 
不 同 的 决策 ,具体 来 说 就 是 转移 的 车 辆 数 ( 为 一 5 一 5, 默 认 
从 A 转移 到 B 为 正 , 如 条 转移 车 辆 是 一 个 负数 , 则 表示 从 
B 转移 到 A)。 如 何 通 过 最 优生 略图 来 返回 决策 ,这 个 过 
程 的 解释 如 图 18.7 所 示 ( 详 见 文 前 彩 插 )。 

首先 找到 这 略图 中 对 应 xOr—8.y—10) PAGS ,位 

图 18.7 最 优 策略 图 的 解释 于 图 中 蓝 色 方形 区 域 , 在 色 阶 图 中 找到 该 区 域 颜 色 对 应 的 

数值 ( 一 5 一 5 的 一 个 数 ) ,就 是 最 优 的 策略 。 假 设 上 例 中 对 

应 的 数值 为 1, 说 明 此 时 的 最 优 策略 是 从 A 地 转移 一 辆 车 到 B 地 。 值 函数 图 则 显示 当前 
状态 获得 的 期 望 囚 积 回 报 。 

其 次 看 条 略 迭代 过 程 。 首 次 迭代 时 ,条 略 被 初始 为 0, 也 就 是 什么 都 不 做 ,此 时 的 色 
阶 图 是 纯 绿 色 的 。 第 一 次 评估 后 ,策略 有 了 改善 ,如 图 中 第 二 行 左 图 所 示 , 此 时 左上 和 角 图 
形 呈 黄色 , 右 下 呈 蓝 色 。 说 明 在 左上 和 角 区 域内 应 该 转移 较 多 的 车 辆 到 B 地 。 此 时 状态 是 
A 地 车 很 多 ,B 地 车 却 很 少 ,为 了 增加 收益 ,转移 一 些 车 辆 到 B 地 是 很 合理 的 。 这 说 明 更 
新 后 的 策略 比 初始 策略 有 了 改善 。 比 较 值 函数 图 ,也 可 以 发 现 图 的 色调 越 来 越 亮 ,对 应 较 
高 的 回报 值 。 这 说 明 回 报 也 确实 增加 了 。 最 后 经 过 4 轮 迭 代 后 ,策略 就 收 化 了 ,此 时 的 策 
略 就 是 最 优 策略 。 
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SARSA 算 法 和 QQ 学习 算法 


[n] [m] 





EE PP A A R W 35 IS T Je vh 457 2] n ds 4E s BS SE TES. Rf iX PI AP SEIECH BUT PH 
MHRA CUR TR b ERI SR [57e 2J BEAR. fH Ze ux PL AS EH TR Ze BR TE. B 76 la 
格 型 的 (Table Based) 算 法 ,也 就 是 很 难 扩 展 到 高 维 或 连续 状态 的 任务 ,其 次 它们 都 依赖 
于 已 知 的 环境 模型 ,也 就 是 基于 模型 (Model Based) 的 算法 。 实 际 上 强化 学 习 有 很 多 独特 
的 地 方 ,也 有 很 多 算法 来 解决 前 面 提 到 的 屿 点。 本 革 青 介绍 两 个 算法 : SARSA 算法 
(SARSA) 和 QQ 学习 算法 (Q-learning)。 这 两 个 算法 部 不 依赖 于 环境 模型 ,为 外 它们 有 很 
多 的 应 用 和 拓展 , 擎 握 它们 也 能 加 深 对 强化 学习 中 在 线 策略 (on-policy) 和 离线 策略 (off- 
policy) 概 念 的 理解 后? 。 


*^19.1 SARSA 算法 原理 


说 到 Q 学 习 算 法 和 SARSA 算法 ,不 得 不 先 说 时 间 差 分 学 习 (Temporal-Difference， 
TD). TD 和 学习 可 以 说 是 强化 学 习 领 域 一 个 比较 独 有 而 又 新 绪 的 方法 。 与 其 说 是 方法 ， 
不 如 说 它 是 一 种 思想 。 基 于 这 个 思想 衍生 出 了 很 多 算法 ,Q 和 学习 算法 只 是 其 中 一 个 典型 
的 代表 。 时 间 差 分 是 怎样 产生 的 呢 ? 这 源 于 强化 学 习 不 可 避免 的 一 个 问题 ,这 就 是 信用 
分 配 问 题 。 因 为 强化 学 习 忆 是 试图 与 环境 交互 ,然后 从 交互 的 经 验 中 学习 。 那 么 如 何 评 
佑 智能 体 在 交互 过 程 中 每 一 步 决策 的 优 劣 呢 ? 这 是 一 个 比较 困难 的 问题 ,因为 并 不 是 每 

-此 决 宁 痢 会 立即 得 到 一 个 反 饿 。 例 如 ,下 和 银 槛 很 容 多 定义 一 个 指标 来 衡量 一 盘 棋 的 办 
属 , 但 是 很 难 评 佑 一 盘 棋 中 某 一 步 的 贡献 。 夯 一 个 方面 ,即使 可 以 获得 一 个 立即 反馈 ,但 
是 如 何 评 佑 当前 决 案 对 未 来 决策 的 影响 ,这 也 比较 困难 。 然 而 一 般 来 说 对 于 每 一 步 的 评 
估 虱 是 必需 的 ,所 谓 “ 一 着 不 层 满 盘 弟 输 ” 说 明了 这 种 评 佑 的 重要 性 。 对 于 一 个 序列 决策 
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4t 
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问题 ,如 何 评估 序列 中 每 一 步 决 策 优 劣 的 问题 就 称 为 信用 分 配 问 题 。 而 TD 方法 的 思想 
就 是 利用 当前 时 刻 1 往 后 n 步 回 报 的 采样 加 上 1 十 n 步 的 估计 值 VCs,,;,) 来 评估 当前 的 决 
IN 

v,G)— EG, | S, = s] = F. pe | S, = j| 


|| k—0 


pe E. Run LY», PR uds | M — l 


k=0 
=ElR TE Sn S, — s] 

上 式 说 明了 时 间 差 分 方法 、 蒙 特 卡 洛 方法 (Monte Carlo，MC) 和 动态 规划 方法 
(Dynamic Programming，DP) 的 关系 。 概 括 地 讲 ,MC 方法 是 采样 到 一 个 完整 的 episode， 
然后 利用 采样 值 来 更 新 值 图 数 ; DP 方法 由 于 已 知 了 状态 转移 概率 和 回报 ,直接 可 以 计算 
任意 状态 .任意 时 刻 系 积 回 报 的 期 望 , 用 它 来 更 新 值 男 数 ; 而 TD 77 iE UI ZR UA. BE 
包括 采样 的 值 ,也 利用 已 知 的 售 计 来 更 新 当前 状态 值 孙 数 ,这 称 为 日 从 (bootstraping)。 
一 个 最 简单 的 TD 算法 ,也 就 是 TD(0) 为 : 

Vis d VC al R4 4- YV Gan —VGD | 

对 于 SARSA TEIZCOK à AA 41 29 [BL ER CUN DJ Q Ga), [EH — 1 61 TAS 

为 的 马尔 可 夫 序 列 , 如 图 19. 1 所 示 。 





图 19.1 MDP 序列 


为 了 计算 行为 值 图 数 , 即 图 19. 1 中 黑 点 的 值 。 考 不 计算 一 次 状态 半 移 涉及 的 元 条 有 
A, 


G, a Riti rs sana DXX ULLAS SARSA 算法 名 称 的 由 来 。 那 
为 值 函数 呢 ? mbi TD 算法 , 它 的 更 新 表达 式 为 : 
V(s) eV 十 wx lR HYV Csm) —V Gs) | 
那么 对 应 地 ,SARSA 的 更 新 表达 式 为 : 
[| 

可 以 看 到 ,SARSA 算法 仅仅 是 时 间 差 分 算法 的 一 种 特殊 情况 , 它 的 核心 还 是 利用 
Ri 十 YQ(sit1sarti) 作 为 当前 行为 值 孙 数 的 目标 。 

其 中 R41 是 一 次 实验 中 实际 采样 的 回报 值 ,这 是 MC 方法 的 做 法 。 而 QC. a? 
是 上 一 辊 估计 的 值 。 更 新 后 的 Q 值 则 综合 这 两 种 信息 。 所 以 比较 一 下 SARSA 算法 和 上 
一 董 节 的 迭代 算法 ,二 者 的 更 新 形式 相似 ,但 有 两 点 不 同 。 第 一 ,由 于 不 知道 状态 转移 算 
阵 P 了 ,所 以 无 法 显 式 地 计算 期 望 ,取而代之 的 方法 是 利用 采样 的 方法 信 计 期 望 ; 第 二 , 没 
有 执行 最 大 化 的 操作 ,类 似 于 案 略 迭代 中 值 孙 数 的 更 新 方式 。 

总 结 起 来 一 个 完整 的 SARSA 算法 的 步骤 如 下 。 


核心 问题 是 如 何 更 新 行 


[ 9e 
me 
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da) 以 任意 的 方式 初始 化 所 有 的 Qa). 

(2) 对 于 每 个 episode, 初 始 化 一 个 初始 状态 s. 

(3) 重复 以 下 步骤 。 

CD 利用 当前 的 Q 值 , 得 到 更 新 的 策略 x。 有 了 策略 ,就 可 以 根据 策略 和 状态 s x 
Fa. 

© 执行 当前 的 行为 a, 观察 回报 R 和 下 一 个 状态 s'。 

O 用 推导 的 策略 选择 s 对 应 的 行为 a 。 

由 WE 3r.QG a0 QG.a)0 tal RJ YQG' ,a )—Q(s,a) |。 

© ——— saa INDE x uet. 

(4) 当 s 是 终止 状态 时 (对 应 于 episode 形式 的 任务 ) ,终止 。 

其 实 对 于 大 多 数 的 强化 学 习 算 法 来 说 ,主要 要 做 两 件 事 。 第 一 产生 (sample) 训 练 样 
本 ,第 二 根据 训练 样本 更 新 值 隐 数 或 策略 (update)。 循 环 地 执行 上 面 算法 的 步骤 中 一 名 
和 步骤 加 ,实际 上 是 得 到 一 个 样本 序列 ,对 应 于 第 一 步 。 而 步骤 由 定义 如 何 根据 样 本 更 新 
值 雏 数 , 合 在 一 起 就 构成 了 整个 学 习 算 法 。SARSA zé — hb EARR Ws Con-policy)? 的 方法 ， 
后 面 Q 学 习 算 法 是 离线 策略 (off-policy) 的 ,这 也 是 它们 最 大 的 区 别 ,虽然 形式 上 很 相似 。 
关于 在 线 策略 和 离线 策略 的 主要 区 别 可 以 参考 博客 2。 


9 19.2 SARSA 算法 的 MATLAB 实践 


同样 通过 一 个 实例 来 介绍 SARSA 算法 。 这 个 实例 是 悬崖 行走 问题 ,如 图 19. 2 Br 

示 ,也 是 网 格 世 界 问题 ,SG 分 别 代表 起 始点 和 目标 ,因此 这 是 一 个 标准 的 episode 任务 。 

图 中 共有 48 个 格子 ,因而 有 48 个 状态 。 相 应 地 对 应 每 个 状态 的 行为 AGO = 

{上 ,下 , 左 , 右 }。 普 通 的 行为 会 产生 相应 的 上 下 左右 的 移动 。 每 次 移动 都 获得 一 1 的 回 
R= 
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— The Cliff — 


图 19.2 悬崖 行走 问题 


(D http://blog. csdn. net/mmc2015/article/details/58021482. 
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报 。 但 是 一 旦 进入 图 中 标记 为 悬 岩 的 区 域 , 会 获得 一 100 的 回报 ,同时 将 状态 重 置 为 起 始 
A 5s。 现在 的 问题 是 如 何 通 过 学 习 算 法 学 习 到 一 个 从 S 到 G 的 最 优 策略 ,也 就 是 一 个 最 
IE MIE 。 
为 了 解决 这 个 问题 , 编 与 以 下 图 数 (SARSA_CW.m X HO: 


r 


E. At Lt LEE X LTEM Lt LT a E aa X tx uL tcu Lr Lut aT xc ete M a t EM a T Xr E t X rM E. tct t aa rA ete T n t T E 


% (matlab 脚本 文件 中 无 法 定义 子 函 数 ) 
s 初 始 化 参数 ,通用 参数 


close all 


clear 


alpha-1e-1 


row = 4; col = 12 
CF = ones(row, col); CF(row, 2:(col- 1)) 20 
s start » [4, 1]; 
s end= [4, 12]; 


max epoch = 3000; 


% SARSA 中 的 参数 


gamma = 1; 


epsilon- 0.1; 


nStates - row * col; 


nActions = 4; 


Q= zeros(nStates, nActions); 


ret epi- zeros(l, max epoch); 


n sarsa = zeros(nStates, nActions); 


steps epi = zeros( (m max epoch) , 


% 进行 每 一 轮 循环 


for el = 1:max epoch 


sarsa finish= Q0; 


st= s start; 


s 初始 化 状态 ,开始 算法 的 步骤 (2) 


% 这 个 script 将 展示 如 何 利用 SMRSR 算 法 求解 悬崖 行走 问题 
% Note: 这 本 来 可 以 写成 一 个 脚本 文件 ,但 是 为 了 在 一 个 函数 中 定义 所 有 的 子 函数 ,写成 函数 的 形式 


名 学 习 步 长 

网 格 大 小 

s 网 格 中 为 0 B935 7; deo CE 

名 初始 状态 

% 目标 

最 多 学 习 多 少 轮 , 一 个 episode ZÉ— $6 


$ 折扣 系数 

% epsilon- greedy 策略 的 概率 阅 值 
所 有 的 状态 数 

& 每 个 状态 的 行为 


$ ÍT H (E PA AUE PF, SARSA 的 更 新 目标 
多 存储 每 一 个 episode 的 累积 回报 R 
名 存储 每 个 (s,a) 访 问 的 次 数 


* 存储 每 个 episode 中 经 历 的 步 数 , 越 小 说 明 学 习 越 快 


外 标志 SARSA did hu 


% sub2ind 函数 把 一 个 多 维 的 索引 转换 成 一 个 一 维 的 索引 值 ,这 样 每 个 网 格 坐 标 被 映射 成 一 


名 个 唯一 的 整数 值 


ii il 
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st index = sub2ind([row, col], s start(1), s start(2)); 


& 选择 一 个 行为 ,对 应 算法 步骤 (2) 后 半 人 名 


[value, action] = max(Q(st index, :)) s 这 里 分 别 用 1、2、3、4 代表 上 下 左右 4 个 行为 ' 


以 epsilon 的 概率 选择 一 个 随机 宽 上 略 
if( rand < epsilon ) 
tmp = randperm(nActions); action- tmp(1); $ 产生 一 个 随机 策略 
end 
* 开始 一 个 episode, 对 应 算法 步骤 (3) 
R= 0; 
while(1) 
根据 当前 状态 和 行为 ,返回 下 一 个 (s',a') 和 回报 ,对 应 算法 步骤 山 


[ reward, next state] = transition(st, action, CF, s start,s end); 


R= R+ reward; 


next ind= sub2ind( [row, col], next state(1), next state(2)); 


s 如 果 下 一 个 状态 不 是 终止 态 , 则 执行 


if (~sarsa finish) 


steps epi(l, ei) = steps epi(l, ei)*1; 


#s 选 择 下 一 个 状态 的 行为 ,对 应 算法 步骤 名 


[value, next action] = max(Q(next ind, :)); 


if( rand< epsilon ) 
tmp = randperm(nActions); next action = tmp(l); 
end 
n sarsa(st index,action) =n sarsa(st index,action) +1; $% JUS&BId BL X i 
if( — ((next state(1) ==s end(1)) &&(next state(2) ==s end(2)) ) ) 
$s 下 一 个 状态 不 是 终止 态 


O(st index, action) = Q(st index, action) + alpha * ( reward + gamma * Q 


(next ind,next action) - Q(st index,action) ); % {É AA E 


else 


O(st index,action) = Q(st index,action) + alpha * ( reward- Q(st index,action) ); 


sarsa finish- 1; 
end 
# 更 新 状态 ,对 应 算法 步骤 由 
st= next state; action= next action; st index = next ind; 
end 
if (sarsa finish) 
break; 


end 
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" a 
* 
= + 
E l A a 
. 1 *- 
E = 
= = Li 
` = 
* a 
m b d a. 


: 256 : 机 器 学 习 入 门 到 实战 一 -MATLAB 实 践 应 用 


end & 结束 一 个 episode 的 循环 
ret epi(1l,ei)= R; 


end 

* 获得 策略 

sideII= 4; sideJJ = 12; 
名 初始 化 pol pi sarsa 表示 策略 ,V_sarsa Æ {H PREX, n g sarsa 是 当前 状态 采取 最 优 策略 的 次 数 
pol pi sarsa = zeros(sideII, sideJJ); V sarsa = zeros(sidelI,sideJJ); n g sarsa = zeros 


(sideIlI,sideJJ); 





for ii= l:sideIlI, 
for jj = 1:sideJJ, 
sti = sub2ind( [sidell,sideJJ], ii, jj ); 
[V sarsa(ii,jj),pol pi sarsa(ii,jj)] = max( Q(sti, :) ); 
ng sarsa(ii,jj)^ n sarsa(sti,pol pi sarsa(ii,jj)); 
end 
end 
& 绘图 
plot cw policy(pol pi sarsa,CF,s start,s end); 


title( 'SARSA 算法 策略 ' )， 


figure('Position', [100 100 400 200]); 

imagesc( V sarsa ); colormap(flipud(jet)); colorbar; 

title( 'SARSA 状态 行为 值 ' ); 

set(gca, 'Ytick', [1 234 ], 'Xtick', [1:12], 'FontSize', 9); 
figure( 'Position', [100 100 400 200]); 

imagesc( n g sarsa ); colorbar; 

title( 'SARSA: 最 优 策略 的 步 数 ' ) 

set(gca, 'Ytick', [12 34 ], 'Xtack', [1:12], 'FontSize', 9); 
& 每 一 个 episode 的 平均 回报 

rpe sarsa= cumsum(ret epi)./cumsum(1:length(ret epi)); 


ph = figure; ph sarsa- plot( rpe sarsa, '- x'); axis([0, 1000, -5 0]); grid on; hold on; 





fE E m BEEF P xg X. 6 REG OE In et B YR. dE ERU Y — 71 d: BR UNI IT PR 
数 。 主 程序 中 就 以 S 为 起 始 状 仿 ,根据 和 案 略 产生 了 3000 个 梓 本 序列 ,对 于 这 些 序 列 中 的 
每 一 次 转移 ,利用 公式 
Q(s.a) -— QGs.a) -- aL RyQ(s a) — Q(s,a) | 
更 新 Q 因数 。 利 用 更 新 的 Q 函数 产生 新 的 贪 楚 策 略 ,再 继续 根据 策略 产生 下 一 个 状 
x. RAZA TAER. ^ PRÉC transition 用 于 计算 转移 到 的 下 一 个 状态 行 
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为 对 (* «a ) 和 单 步 转 移 的 回报 ,等 价 于 模型 中 的 转移 概率 和 回报 。 实 现代 码 如 下 


(transition. m X fF). 


function [reward, next state] = transition(st, act, CF, s start, s end) 
$ PROC] TEE 2A Bü PES A P — T SRI (s',a') M R 
[row, col] = size(CF); 
ii=st(1); jj= st(2); 
switch act 
case 1, 
* action = UP 
next state- [ii- 1,jjl; 
case 2, 
% action = DOWN 
next state- [ii* 1,jj]; 
case 3, 
% action = RIGHT 
next state- [ii,jj-* 1]; 
case 4 
% action = LEFT 
next state- [ii,jj- 1]; 
otherwise 


error(sprintf(' 未 定义 的 行为 = $d',act)); 


end 

& 边界 处 理 

if( next state(1)<1 ) next state(1)=1; end 
if( next state(1)» row ) next state(1) = row; end 
if( next state(2)«1 ) next state(2)721; end 
if( next state(2)» col ) next state(2) = col; end 

s 回报 计算 

if((ii==s end(1)) &&(jj77 s end(2)) ) % 结束 


reward = 0; 
elseif( CF(next state(1),next state(2)) --0) s EREK 
reward = — 100; 
next_state= s start; 
else 
reward--]1; 
end 


end 
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最 终 得 到 的 结果 如 图 19. 3 一 图 19. 5 所 示 。 
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图 19.3 SARSA 算法 得 到 的 策略 
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图 19.4 SARSA 算法 得 到 最 优 Q 值 
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图 19. 3 aR GEM XC Bio dO AAH SARSA 算法 得 到 的 策略 。 图 中 蓝 色 区 域 代 表 
悬崖, 黄色 区 域 是 可 行 区域 ; 黑色 三 角形 代表 起 点 ,圆圈 代表 终点 ; 红色 箭头 代表 每 个 状 
态 的 条 略 。 可 以 看 出 算法 得 到 的 案 略 能 够 成 功 地 避 开 其 娠 ,到 达 目 的 地 。 但 是 经 历 的 路 
径 略 长 ,最 优 步 长 约 为 15 步 。 图 19.4 以 图 厂 的 形式 展示 了 最 优生 上 略 对 应 的 Q 函数 。 
可 以 看 出 , 随 着 越 来 越 接 近 终 点 ,各 个 状态 的 Q@ 值 也 在 增 大 ,这 符合 实际 的 情况 。 最 后 
为 了 证 明 随 者 学 习 的 进行 , 筑 略 确实 有 了 了 改善。 图 19.5 给 出 每 个 episode 的 累积 回报 
随时 间 的 变化 情况 ,以 及 完成 每 个 episode 需要 的 步 数 随时 间 的 变化 情况 。 图 中 只 展示 
了 前 600 个 episode 的 情况 ,可 以 看 出 回报 值 迅速 地 增 大 ,并 收 伊 到 一 个 稳定 仁 。 并 且 
完成 一 次 任务 ,需要 的 步 数 也 越 来 越 少 , 这 说 明 SARSA 算法 能 够 通过 和 学习 不 断 地 改善 


© 19.3 Q 学 习 算 法 原理 


Q 学 习 的 出 现 是 强化 学 习 领 域 一 个 突破 性 的 成 就 ,最 早 由 Watkins" TE 1989 年 提 

出 。 它 最 简单 的 方式 也 就 是 单 步 QFY, ELN: 
Q(s,,a,) — QCs,,a;) 十 al Rn 二 7 max Q (st a) —DOs iJ 1 

观察 上 式 , 与 SARSA 相 比 最 大 的 变化 就 是 括号 里 多 了 一 个 最 大 化 的 操作 。 表 达 式 
上 虽然 变化 不 大 ,但 是 算法 的 原理 上 却 大 相 径 奋 。 因 为 这 个 最 大 化 的 操作 ,所 有 下 一 个 状 
态 的 行为 并 不 关心 执行 哪个 行为 ,而 是 关心 所 有 行为 中 使 得 Q(s,+1,a) 最 大 的 最 大 行 
为 。 具 体 的 Q 学 习 算法 步骤 如 下 。 

d) 以 任意 的 方式 初始 化 所 有 的 Q(s,a)。 

(2) 对 于 每 个 episode, 初 始 化 一 个 初始 状态 s. 

(3) 重复 以 下 步骤 。 

CD 利用 当前 的 Q@ 值 ,得 到 宋 略 re CR S M x, 就 可 以 根据 有 达 上 略 和 状态 s 选择 a。 

© 执行 当前 的 行为 4a, 观察 回报 R 和 下 一 个 状态 。。 

D 更新,Q(s,a) 二 Q(s,a) 十 aL RHY maxQ(s ,a )—Q(s,a)]. 

QD 更 新 当前 的 状态 为 ,也 就 是 ses 

(4) 24 s 是 终止 状态 时 (对 应 于 episode 形式 的 任务 ) ,终止 。 

对 比 SARSA 算法 和 Q 和 学习 算 法 的 步骤 ,最 大 的 区 别 在 于 QQ@ 值 的 更 新 表达 式 不 一 
FE ,但 它们 仍然 都 满足 TD 算法 的 框架 。 另 外 ,关于 SARSA 和 Q 学 习 算 法 Q 值 的 更 新 
可 以 进行 清晰 地 分 辨 ,如 图 19. 6 所 示 。 

由 图 19.6 可 知 ,SARSA 算法 只 是 选择 了 一 条 文 路 ,而 Q 学 习 算 法 需要 综合 考虑 所 
有 的 行为 分 文 。 下 面 仍 然 以 悬崖 行走 问题 为 例 ,介绍 Q 和 学习 算 法 的 MATLAB 实现 。 
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图 19.6 SARSA 算法 和 Q 学 习 算 法 的 备份 图 
[Ce 19.4 Q 学 习 算 法 的 MATLAB 实践 


由 于 Q 学 习 算 法 和 SARSA 算法 仅仅 在 更 新 上 略微 有 所 不 同 , 因 此 在 代码 实现 上 也 基本 
相同 ,只 有 更 新 的 部 分 不 一 样 。 下 面 的 函数 仪 仅 展 示 和 凸显 出 Q 和 学习 算法 进行 Q@ 值 更 新 部 
分 的 实现 过 程 ,整个 Q 学 习 算 法 ,读者 可 以 依据 19.3 节 的 代码 有 自己 完成 (q_learn. m XH). 


$ O 值 更 新 的 部 分 实现 
for ei-]1:max episodes 

q finish-7 0; 

s T ELI n As, EA SC] a AA So] B) — 256 28 9| 

st=s start; sti qlearn = sub2ind( [sidell,sideJJ], st(1), st(2) ); 
名 根据 初始 状态 ,产生 一 个 行为 
[ value, action] = max(Q qlearn(sti qlearn,:)); 

if( rand < epsilon ) % explore ... with a random action 

tmp = randperm(nActions); action = tmp(l); 


end 


多 开始 一 个 episode 
R= 0; 
while(1) 
$ 根据 当前 状态 和 行为 ,返回 下 一 个 (sa') 和 回报 ,对 应 算法 步骤 山 
[reward, next _ state] = transition(st, action, CF, s start,s end); 
R= R+ reward; 
nextindex = sub2ind( [sideII,sideJJ], next state(1), next state(2) ); 


if —q finish 
steps epi(l, ei) = steps epi(l, ei) *]1]; 
[ value, next action] = max(OQ(nextindex, :)); 


if( rand< epsilon ) 


ECT tx c LL E LLL LM LL ELM LT Lt LLL CL LL Ec ca Lt ML M XL ECL eM Lr x At T a T a 


tmp = randperm(nActions); next action = tmp(1); 
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end 
if( — ((next state(1) == s end(1)) &&(next state(2) == s end(2)) ) ) 
& F- TREA EKES 
O(st, action) = Q (st, action) + alpha * ( reward + gamma * max (Q 
(nextindex,:)) -Q(st,action) ); 要 值 图 数 更 新 ,对 应 算法 步骤 加 ) 
else 
O(st,action) = Q(st,action) + alpha * ( reward - Q(st,action) ); 
q finish= 1; 





end 
ss 更 新 状态 ,对 应 算法 步骤 由 
st = next state; action= next action; st index = nextindex; 
end 
if (sarsa finish) 
break; 
end 
end % 结束 一 个 episode 的 循环 


ret epi(ei)=R; 


wii 


可 以 看 到 ,基本 的 步骤 与 SARSA 算法 是 一 样 的 ,就 是 在 Q 值 更 新 上 有 所 差别 ,多 了 

-个 最 大 化 的 操作 。 实 际 上 如 果 SARSA 算法 采用 的 是 贪 焚 策 略 ,而 且 Q 学 习 算法 采样 
也 使 用 贪 禁 策略 ,这 两 种 算法 获得 的 效果 一 样 ,这 两 个 条 件 缺 一 不 可 。 但 是 即使 SARSA 
算法 采用 的 是 贪 焚 策 略 ,但 是 Q 学 习 算 法 用 于 采样 产生 序列 的 策略 不 是 贪 楚 的 ,结果 也 
会 不 相同 。 因 为 此 时 SARSA 算法 和 Q 学 习 算 法 都 用 maxQ(s a ) 来 更 新 Q 值 ,但 是 样 


本 不 同 。Q 学 习 算 法 的 效果 ,如 图 19. 7 一 图 19. 10 所 示 。 
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图 19.7 Q 学 习 算法 得 到 的 策略 


图 19. 10 中 各 个 图 的 含义 与 SARSA 算法 介绍 的 相同 ,不 再 费 述 。 这 里 对 比 一 下 
SARSA 算法 和 Q 学 习 算 法 ,从 案 略 上 来 看 ,SARSA 算法 倾 问 于 寻找 一 条 安全 的 路 径 ,Q 
学 习 算 法 候 回 于 找到 一 条 最 优 路 人 径 。 从 学 习 的 过 程 来 看 ,Q 学 习 算 法 的 回报 值 的 波动 似 
乎 更 大 。 但 是 每 个 episode 的 平均 回报 很 接近 
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Q 学 习 算法 状态 行为 值 
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图 19.8 Q 学 习 算 法 的 Q 值 函数 
每 个 episode 的 尝 积 回报 (Q 学 习 ) 平均 每 个 episode 用 的 步 数 (Q 学 习 ) 
1000 
0 
800 
—500 
600 
T —1000 " 
PE ES 
E 2. — 400 
四 11500 
200 
-2000 
0 
—2500 
Ü 200 400 600 0 200 400 600 
episode episode 


图 19.9 Q 学 习 算 法 的 策略 提升 过 程 
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图 19. 10 SARSA 算法 和 Q 学习 算法 平均 每 个 episode 回报 的 对 比 
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